
导读
在智源社区举办的「青源Workshop第27期:AI Agents 闭门研讨会」上,来自英伟达的高级应用科学家王智琳、CAMEL一作李国豪、AutoAgents一作陈光耀,以及相关技术专家们共同参与交流讨论,分享了最新的研究成果,共同探索了AI智能体的未来发展方向和应用前景。 所谓AI智能体(AI Agents),是一种能够感知环境、进行决策和执行动作的智能实体。它们拥有自主性和自适应性,可以依靠AI赋予的能力完成特定任务,并在此过程中不断对自我进行完善和改进。今年以来,AI Agents概念持续高涨,其研究本质究竟是什么?为什么大模型之后,还需要有AI智能体?AI智能体未来可以辅助人类实现哪些任务?以下是本期Workshop精华观点集锦。AutoAgents——自动化智能体生成框架

/ 陈光耀/
北京大学博士
2023年于北京大学取得博士学位,主要研究方向为开放世界学习、多智能合作学习与模型压缩,已在TPAMI、NeurIPS、ICCV等国际顶级期刊会议共发表论文十余篇,作为主要技术骨干参与编制多项人工智能模型表示与压缩技术的国际国家标准。曾获北京大学优秀博士学位论文奖、IEEE标准突出贡献奖和石青云院士优秀论文奖等。他长期担任TPAMI/IJCV/NeurlPS/ICLR/CVPR/ICCV/AAAI 等多个学术会议或期刊的 PCMember/Reviewer。

大语言模型带来的挑战


自动化智能体


智能体的发展历史



AutoAgents:自动化智能体生成框架
在 AutoAgents 系统中,为提高生成智能体的质量,我们定义了多种智能体之间的讨论,为每个任务确定需要的智能体。此外,在多智能体系统中,我们更加细致地考虑了智能体执行单个任务的能力,定义了自我细化、合作细化的过程。
起草阶段:智能体生成

起草阶段:执行计划生成

执行阶段:多智能体通信

执行阶段:自我细化&合作细化
针对单智能体场景,采用自我细化方法使智能体逐步执行任务。针对多智能体场景,首先确定了智能体之间的合作关系,通过不同智能体之间的交流,整合它们的知识和能力,更好地完成交叉领域的任务。在智能体执行任务时,需要生成提示,并不断自我细化。为此,我们设计了「Meta Agent」机制,确定了单个智能体提示中动态变化的过程,提取了共性的部分。 在执行阶段,我们采用了三种记忆机制:(1)长时记忆。记录每个智能体执行的结果(2)短时记忆。记录单个智能体自我细化的中间结果。(3)动态记忆。包含对单个智能体重要的信息,无需从长时记忆中获取。对未来智能体的展望


Humanoid Agents——模拟类人生成式智能体的平台
/ 王智琳 /
英伟达科学家、Humanoid agents作者
NVIDIA NeMo NLP团队的高级应用科学家。他致力于通过使LLM可控、安全和可访问,使其对每个人都有用。他曾就读于华盛顿大学研究生院,研究自然语言处理,研究对话系统和计算社会科学。他关注技术的最新发展,尤其是语言技术的交叉点,以及语言技术如何为改善人类生活做出贡献。



系统设计







未来的研究方向
对于整个智能体研究领域来说,这是一个很宝贵的了解人类自身的机会。我们可以从第三视角,更好地模拟人类,也许可以做出相较于传统心理学方法更好的工作,得到一些更好的发现结果。这种方式可以与传统心理学方法互补,考虑更多的因素。我们还可以利用对类人智能体系统的理解,改善人与人之间的关系,实现人类社会的幸福。最后,我们还可以像「西部世界」中一样,实现高度逼真的仿真模拟。利用智能体构建 AI 社会
/ 李国豪 /
阿卜杜拉国王科技大学(KAUST)计算机科学博士
人工智能研究员、开源贡献者,致力于构建能够感知、学习、交流、推理和行动的智能主体。他是开源项目CAMEL-AI.org和DeepGCNs.org的核心负责人,也是PyG.org的核心成员。他在阿卜杜拉国王科技大学获得计算机科学博士学位,导师为Bernard Ghanem教授。在攻读博士期间,他曾在英特尔ISL担任研究实习生。他作为访问研究员访问了ETHz CVL,并曾在Kumo AI工作。主要研究方向包括自主代理、图形机器学习、计算机视觉和嵌入式人工智能。他在ICCV、CVPR、ICML、NeurIPS、RSS、3DV和TPAMI等顶级会议和期刊上发表了相关论文。

1986:马文·明斯基的智能体





CAMEL 框架


Q&A
Q1:如何在为通用领域的语言模型赋予角色时,使其成为专业领域的专家?在赋予智能体角色时,其能力都来自同一个预训练大模型。为其赋予不同角色,使其成为特殊领域的专家,与使用一个通才模型有何区别? 李国豪:显式告知自然语言模型扮演某种角色会影响其输出。我们可以加入一些知识、记忆,也可以为智能体赋予不同的工具,成为不同领域的专家。实际上,我们往往很难直接训练出一个通才智能体。我们可以采用「分而治之」的思想,将问题分解为多个子问题,在降低问题复杂度的同时,让任务并行完成,这比训练一个通才模型更加容易。 我们通过不同的提示可以得到不同的结果。通过模型形成不同的专家,会比通才模型在某些领域得到的回答更好。实际应用场景和实验场景下使用的模型也可以是完全不同的。 陈光耀:我们可以将大语言模型视为一个通才,但是我们在多智能体系统中通过 Prompt 的方式更好地挖掘领域知识,提升回答的指令。使用不同的模型可能会降低模型的微调效率,还需要进一步探索。 Q2:目前大多数智能体框架都基于 ChatGPT 开发而来,如果我们更换后端模型,会不会影响框架的性能?Prompt 会不会失效? 王智琳 :由于每种模型的训练过程不太一样,更换后端模型确实会对 Prompt 的效果产生有一定影响。短期来讲,没有特别好的解决办法,我们可以针对特定任务进行单元测试,或者可以使用非常强的大语言模型(例如 GPT-4)测试更换模型后的效果。长远来看,我们可以通过基于 Lora、RLHF 等方式训练定制化的模型,对模型进行控制。 Q3:多智能体框架包含规划者和多个执行者,规划是否决定了基于 Prompt 的智能体的能力上限?如果规划能力较弱,是否可以通过人机协作使任务执行更加高效? 陈光耀:规划确实是很重要的一环,但是单个智能体的执行能力、工具的执行效率也都很重要。人机合作是一种很好的机制,但是大多数多智能体系统都是一种工具。我们可以通过智能体辅助人,也可以让人辅助智能体。 李国豪:规划很重要,其它能力也同等重要。我们要考虑如何扩展智能体个数、实用工具的数量、记忆的维度等因素的组合。目前,我们还做不到完全自动化的系统,任务中一些模糊不清的部分还需要人类与机器合作。这种人机合作的方式也包含人被动、人主动两种模型,会产生不同的系统设计。 Q4:大模型似乎不太会主动向人类提问,如何让智能体主动向人类获取知识? 李国豪:可以通过 prompting 来解决该问题。我们可以在开始做任务之前,让智能体询问人类各种问题,直到他觉得答案已经明确为止。 Q5:除了设计模块、进行 Prompt 工程之外,该领域还有哪些有价值的研究方向? 李国豪:有很多可以做的地方。首先,可以研究 Agent 的哪些能力应该融合到模型里。有没有一种混合模型的设计?工具是不是可以作为神经网络的某一层? Q6:目前似乎缺少一个评测智能体的 Benchmark,这方面的工作是否有意义? 李国豪:非常有意义。我们一开始在做 CAMEL 项目时,根本不知道怎么去评价它。现在,模型能力已经远远超过我们能够评估这些模型的方法。智能体的评测将会是未来非常重要的研究方向。更多内容 尽在智源社区