AI Agent的应用场景有哪些？ - 问答集锦

最佳答案由匿名用户编辑于2024/10/10 10:31

AI Agent 目前的应用大多都在概念层面，但随着大模型竞争加快、政策鼓励研发投入、更多企业参与 AI 研究等因素，应用层面的 AI Agent 推进速度加快。

1. 自动化类：微软智能体 AutoGen

微软研发的 AutoGen 是一种多智能体沟通的模型，这些智能体通过对话完成任务。实验发现这种多智能体沟通模式可以有效提高 AI 解决问题的准确性以及成果的完整性。使用 AutoGen，开发者可以灵活定义智能体交互行为。微软的研究证明了该框架在包括解决数学、编码、问题解答、运筹学、在线决策、娱乐等问题上的有效性。 AutoGen 需要两个以上的智能体形成交流模式，其中智能体可以由大语言模型 LLMs、人类、工具来扮演。当一个需求被提出，智能体会开始灵活交流，他可以是多个智能体向需求人汇报的模式（Hierarchical Chat）或者是像研讨会一样随意讨论（Joint Chat）。在官方给出的示例中，智能体之间的沟通确实减少了人工交互，其有能力自己修复出现的问题并给出满意的答案。

在 AutoGen 智能体程序中，人类充当需求发起者，智能体通过不断使用工具并在相互交流中解决陆续出现的问题从而得到最终答案。在智能体交流过程中，人类可随时介入其中，若用户对最终结果不满意，可以重新提出需求，智能体就会继续优化答案。

AutoGen 在四项实战应用的表现测试中均胜过单一大语言模型，实验发现智能体能增加 AI 完成任务的成功率以及模型的稳定性。1）数学计算：分别测试了 AI 在完成整个数学题库和随机 120 道题目的表现，AutoGen 的成功率远超各类语言模型。2）数据库检索问答：先建立一个 RAG 数据库，然后对智能体进行问答测试，看其能否追踪到正确的答案。其 F1-score 越高，说明模型更稳定；Recall 体现了分类模型对样本的识别能力。Recall 越高，说明模型对样本的识别能力越强。从数据看出纯 AutoGen 模型的表现略高于其他组合。3）ALFWorld（Adaptive Learning Framework World）研究： ALFWorld 是专门用于研究和开发智能体的仿真环境，在其虚拟世界中，包含了各种场景、任务和智能体需要完成的挑战。ALFWorld 实验发现 3 个智能体的成功率高于 2 个智能体，说明随着交互的智能体变多，智能体间互相纠错的能力有所提升。但对于 AutoGen 的实验也提到多智能体可能会导致错误循环（智能体之间反馈错误但一直无法解决），这也是降低成功率的因素之一。4）OptiGuide: 是专门设计来通过自然语言处理，解读和指导复杂供应链优化决策。在用不同语言模型运行 OptiGuide 的时，发现多智能体协作模式的成绩显著高于单智能体。其中多 GPT4 智能体协作运行 OptiGuide 时， F1-score 和 Recall 分别能达到 96%和 98%。

2.情感需求类：陪伴型智能体

智能体另一大应用领域就是提供拟人情感陪伴类服务。陪伴类的智能体拥有长期记忆，让用户与其聊天中产生熟悉且亲切的感觉。随着大模型不断迭代，陪伴类智能体更加立体，能提供更高的情绪价值。目前国内情绪消费类市场潜力较大，在如今紧凑的生活节奏之下，国民孤独感增加，而陪伴类智能体或受益于这样的大环境。根据 GIA（Global Industry Analysts）的研究，Denny Yin 提出该行业规模预计到 2024 年增长到 1000 亿美元，到 2026 年增长到 2000 亿美元。情感沟通类智能体上线，收获大量用户好评。在大模型出现之前，一些利用心理学 CBT 沟通技术的产品已经在市面上广泛存在，例如 Weobot、wysa 等。随着大模型的发展和迭代，智能体已经能被打造成心理咨询师或塔罗师的角色。用户通过倾诉生活中的烦恼，并在与智能体沟通中寻求情绪宣泄。目前一款治愈系的软件“林间聊愈室”上线后获得了大量好评， App Store 评分 4.7，多数用户给出了五星好评。其中产品使用小动物的角色设定降低了用户的戒备心，加上治愈的画风和场景设计，打造独特的用户体验。

3.效能讨论：成本与价值间的博弈

打造智能体并不是 0 成本，大语言模型的 token 消耗就是最直观的成本展示。由于智能体的运行机制内包含反思和深度学习，这使得其在 token 消耗方面比传统大语言模型高。相比于单智能体，多智能体又多了一层交互端的消耗，当多个智能体讨论且进入错误循环中，无效成本将会显著提升。所以在效能方面，对智能体进行成本讨论以及优化策略十分重要。在商用智能体中，更先进的大语言模型代表更好的用户体验，但随之而来的是极速上升的成本。目前 GPT4 的价格是 GPT3.5 turbo 的十倍，而且由于智能体之间交互的特性，在输出过程中往往伴随着更高的 token 消耗。若最终输出的长度超出模型 token 限制，则不得不调用更高版本的模型例如 GPT4-32K，成本又是 GPT4 的两倍。

在实际测试中，使用搭载 GPT4 的智能体模型查找新闻并进行总结梳理。这部分的单次消耗是 42000 个 tokens，成本是 1.5 美元。在实际应用中，假设一天需要统计的股票新闻大约有 120 家公司，则成本为 35.8 美元，按照汇率 1 : 7.14 折合人民币 255.5 元。而且智能体并不是完美的，在运行过程中出现幻觉或错误循环也是常事。例如智能体在找不到合适新闻的时候会进行大量重复的内容输出，人工介入纠错又会增加一定成本。

商业化智能体在成本和最终产品中会有一定博弈，若将智能体运用到股票交易等对精准度需求极高的行业中，产品或引入更多智能体进行协作以提高模型的稳定性，则成本上升。如果运行成本高于其创造的价值时，该智能体模型就失去了商业化的能力。目前多数智能体应用仅停留在测试阶段，市场中的用户需要更理性的看待智能体商业发中能带来的效益。