AI Agent 目前的应用大多都在概念层面,但随着大模型竞争加快、政策鼓励研发投 入、更多企业参与 AI 研究等因素,应用层面的 AI Agent 推进速度加快。
微软研发的 AutoGen 是一种多智能体沟通的模型,这些智能体通过对话完成任务。 实验发现这种多智能体沟通模式可以有效提高 AI 解决问题的准确性以及成果的完整性。 使用 AutoGen,开发者可以灵活定义智能体交互行为。微软的研究证明了该框架在包括 解决数学、编码、问题解答、运筹学、在线决策、娱乐等问题上的有效性。 AutoGen 需要两个以上的智能体形成交流模式,其中智能体可以由大语言模型 LLMs、人类、工具来扮演。当一个需求被提出,智能体会开始灵活交流,他可以是多个 智能体向需求人汇报的模式(Hierarchical Chat)或者是像研讨会一样随意讨论(Joint Chat)。在官方给出的示例中,智能体之间的沟通确实减少了人工交互,其有能力自己 修复出现的问题并给出满意的答案。
在 AutoGen 智能体程序中,人类充当需求发起者,智能体通过不断使用工具并在相 互交流中解决陆续出现的问题从而得到最终答案。在智能体交流过程中,人类可随时介 入其中,若用户对最终结果不满意,可以重新提出需求,智能体就会继续优化答案。
AutoGen 在四项实战应用的表现测试中均胜过单一大语言模型,实验发现智能体能 增加 AI 完成任务的成功率以及模型的稳定性。1)数学计算:分别测试了 AI 在完成整个 数学题库和随机 120 道题目的表现,AutoGen 的成功率远超各类语言模型。2)数据库 检索问答:先建立一个 RAG 数据库,然后对智能体进行问答测试,看其能否追踪到正 确的答案。其 F1-score 越高,说明模型更稳定;Recall 体现了分类模型对样本的识别 能力。Recall 越高,说明模型对样本的识别能力越强。从数据看出纯 AutoGen 模型的表 现略高于其他组合。3)ALFWorld(Adaptive Learning Framework World)研究: ALFWorld 是专门用于研究和开发智能体的仿真环境,在其虚拟世界中,包含了各种场 景、任务和智能体需要完成的挑战。ALFWorld 实验发现 3 个智能体的成功率高于 2 个 智能体,说明随着交互的智能体变多,智能体间互相纠错的能力有所提升。但对于 AutoGen 的实验也提到多智能体可能会导致错误循环(智能体之间反馈错误但一直无法 解决),这也是降低成功率的因素之一。4)OptiGuide: 是专门设计来通过自然语言处理, 解读和指导复杂供应链优化决策。在用不同语言模型运行 OptiGuide 的时,发现多智能 体协作模式的成绩显著高于单智能体。其中多 GPT4 智能体协作运行 OptiGuide 时, F1-score 和 Recall 分别能达到 96%和 98%。

智能体另一大应用领域就是提供拟人情感陪伴类服务。陪伴类的智能体拥有长期记 忆,让用户与其聊天中产生熟悉且亲切的感觉。随着大模型不断迭代,陪伴类智能体更 加立体,能提供更高的情绪价值。目前国内情绪消费类市场潜力较大,在如今紧凑的生 活节奏之下,国民孤独感增加,而陪伴类智能体或受益于这样的大环境。根据 GIA(Global Industry Analysts)的研究,Denny Yin 提出该行业规模预计到 2024 年增长到 1000 亿 美元,到 2026 年增长到 2000 亿美元。 情感沟通类智能体上线,收获大量用户好评。在大模型出现之前,一些利用心理学 CBT 沟通技术的产品已经在市面上广泛存在,例如 Weobot、wysa 等。随着大模型的发 展和迭代,智能体已经能被打造成心理咨询师或塔罗师的角色。用户通过倾诉生活中的 烦恼,并在与智能体沟通中寻求情绪宣泄。目前一款治愈系的软件“林间聊愈室”上线 后获得了大量好评, App Store 评分 4.7,多数用户给出了五星好评。其中产品使用小 动物的角色设定降低了用户的戒备心,加上治愈的画风和场景设计,打造独特的用户体 验。
打造智能体并不是 0 成本,大语言模型的 token 消耗就是最直观的成本展示。由于 智能体的运行机制内包含反思和深度学习,这使得其在 token 消耗方面比传统大语言模 型高。相比于单智能体,多智能体又多了一层交互端的消耗,当多个智能体讨论且进入 错误循环中,无效成本将会显著提升。所以在效能方面,对智能体进行成本讨论以及优 化策略十分重要。 在商用智能体中,更先进的大语言模型代表更好的用户体验,但随之而来的是极速 上升的成本。目前 GPT4 的价格是 GPT3.5 turbo 的十倍,而且由于智能体之间交互的 特性,在输出过程中往往伴随着更高的 token 消耗。若最终输出的长度超出模型 token 限制,则不得不调用更高版本的模型例如 GPT4-32K,成本又是 GPT4 的两倍。
在实际测试中,使用搭载 GPT4 的智能体模型查找新闻并进行总结梳理。这部分的 单次消耗是 42000 个 tokens,成本是 1.5 美元。在实际应用中,假设一天需要统计的股 票新闻大约有 120 家公司,则成本为 35.8 美元,按照汇率 1 : 7.14 折合人民币 255.5 元。而且智能体并不是完美的,在运行过程中出现幻觉或错误循环也是常事。例如智能 体在找不到合适新闻的时候会进行大量重复的内容输出,人工介入纠错又会增加一定成 本。
商业化智能体在成本和最终产品中会有一定博弈,若将智能体运用到股票交易等对 精准度需求极高的行业中,产品或引入更多智能体进行协作以提高模型的稳定性,则成 本上升。如果运行成本高于其创造的价值时,该智能体模型就失去了商业化的能力。目 前多数智能体应用仅停留在测试阶段,市场中的用户需要更理性的看待智能体商业发中 能带来的效益。