清华团队领衔打造，首个AI agent系统性基准测试问世

图片来源@视觉中国

AI 智能体，或自主智能代理，不仅是诸如贾维斯等科幻电影中的人类超级助手，也一直是现实世界中 AI 领域的研究热点。尤其是以 GPT-4 为代表的 AI 大模型的出现，将 AI 智能体的概念推向了科技的最前沿。

(相关资料图)

在此前爆火的斯坦福“虚拟小镇”中，25 个 AI 智能体在虚拟小镇自由生长，举办了情人节派对；英伟达等提出的具身代理模型 Voyager，也在《我的世界》中学会各种生存技能，闯出了自己的一片天；此外，能够自主完成任务的 AutoGPT、BabyAGI 和 AgentGPT 等，也同样引发了公众的广泛兴趣和热烈讨论。

甚至，前特斯拉 AI 总监、回归 OpenAI 的技术大牛 Andrej Karpathy 在一次开发者活动上透露，每当有新的 AI 智能体论文出现时，OpenAI 内部就会非常感兴趣，并认真地进行讨论。

尽管当前 AI 智能体研究异常火热，但目前 AI 行业缺乏一个系统化和标准化的基准来评估 LLMs 作为代理的智能水平。

为此，来自清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——AgentBench，用来评估 LLMs 作为智能体在各种真实世界挑战和 8 个不同环境中的表现（如推理和决策能力）。

研究结果显示，顶级商业语言模型（如 GPT-4）在复杂环境中表现出色，与开源模型之间存在显著优势。为此，研究团队建议，有必要进一步努力提高开源 LLMs 的学习能力。

相关研究论文以“AgentBench: Evaluating LLMs as Agents”为题，已发表在预印本网站 arXiv 上。另外，相关数据集、环境和集成评估包也已发布在 GitHub 上。

首个系统性基准测试

在以往的研究和实践中，基于文本的游戏环境已被用于语言代理的评估。然而，它们往往由于封闭的离散行动空间而受到限制，且其重点主要集中在模型的常识基础能力上。

最近，一些关于具身代理的尝试采用了基于游戏、图形用户界面（GUI）和室内场景的复杂多模态模拟器。然而，尽管这些模拟器很复杂，不能准确地反映出 LLMs 在实际用例中的使用情况，且其多模态性质也给纯文本 LLMs 的快速评估带来了障碍。

此外，大多数代理的基准测试都集中在单一环境中，这限制了它们在不同应用场景中全面概述 LLMs 的能力。

在此次工作中，研究团队在操作系统（OS）、数据库（DB）、知识图谱（KG）、卡牌对战（DCG）、情景猜谜（LTP）、家居（Alfworld）、网络购物（WebShop）和网页浏览（Mind2Web）8 种不同的环境任务中，使用 AgentBench 对 25 个不同的语言模型（包括基于 API 的模型和开源模型）进行了全面评估。

测试结果显示，像 GPT-4 这样的顶尖模型能够处理各种各样的现实世界任务，而大多数开源 LLMs 在 AgentBench 中的表现远远不及基于 API 的 LLMs；甚至，最有能力的开源模型 openchat-13b-v3.2 也与 gpt-3.5-turbo 之间存在显著的性能差距。

尽管通过广泛的对齐训练，LLMs 不仅可以掌握传统的 NLP 任务，如问题回答、自然语言推理和文本摘要，而且还能展示出理解人类意图和执行指令的能力，但它们在 AgentBench 任务上（如行动的有效性、长上下文、多轮一致性以及代码训练）的表现却相对落后。

研究团队表示，未来还需要更多的工作来进行更加严格、系统的评估，并提供强大的开源工具来促进此类评估，如不断完善 AgentBench，使其更加全面和包容，以及建立一个更为系统的 LLMs 评估体系等。

“自主”AI代理竞赛正在席卷硅谷

AI 大模型的不断进化催生了新型助手的诞生。当前，“自主”AI 代理的竞争激发了硅谷的热潮。不仅吸引了个人开发者，还有巨头公司如微软和谷歌母公司 Alphabet，以及众多初创企业也踊跃参与其中。

以初创公司 Inflection AI 为例，该公司的联合创始人 Reid Hoffman 和 Mustafa Suleyman 在播客中表示，他们正在开发一款个人助手，能够充当导师，也能够应对类似于安排航班积分和酒店等任务这样的事务。

MultiOn 公司开发者 Div Garg 表示，其目标是将其发展为个人的 AI 朋友，类似于虚拟助手“贾维斯”。他们希望这个代理能够与个人的服务进行连接。

Generally Intelligent CEO Kanjun Qiu 表示：“对人类来说很容易的事情，对计算机来说仍然非常困难，如为老板安排一组重要客户的会议。这需要非常复杂的推理能力，涉及到获取每个人的偏好，解决冲突，同时还需要在与客户合作时保持细致入微。”

Qiu 和其他四位代理开发者预测，第一批能够可靠地执行多步骤任务并具备一定自主能力的系统将在一年内上市，重点关注编码和营销等垂直领域。

微软 CEO Satya Nadella 曾在接受《金融时报》采访时表示：“无论是微软自家的 Cortana，还是亚马逊的 Alexa 、谷歌助手、苹果的 Siri，都还不够智能，未能达到最初的预期。”

抛开存在的担忧不谈，AI 代理已经展现出了巨大潜力和市场。虽然我们在探索和应用过程中可能会遇到一些挑战，但正如历史上许多创新一样，随着时间的推移，我们有望在不断优化和完善中见证这些 AI 代理为人类社会带来积极而深远的影响。

关键词：