Agent定义、模块、核心能力及应用场景有哪些？ - 问答集锦

最佳答案由匿名用户编辑于2025/05/27 10:22

Agent定义尚未明确，但类别及应用场景已然丰富。

1.Agent尚无明确定义，自主规划与否为核心争议点

工程师流程调优与否对应Agent发展的两条不同路线。传统的软件系统大多遵循清晰的“请求-响应”模式，即前端（用户）发送请求，后端（软件）接收请求，访问数据库，执行变更，最终返回结果，这种模式使得软件可以根据用户的需求进行定义，软件工程师可以通过对代码、架构的精细打磨优化产品性能。而在AI时代，依靠大模型进行动态推理和生成响应则存在大量的模糊计算，软件的响应不再由静态代码决定，而是基于不断进化的模型能力动态驱动，此时软件工程师对产品额外的优化代码可能会在模型更新后失去意义，甚至完全失效。上述情形反映到Agent中对应了两条路径，一是由工程师设计复杂的工作流，让模型在框架里运行；二是不断提升大模型的推理能力，搭建更灵活、通用的Agent。学界普遍认为Agent需要具备规划能力。目前Agent尚没有统一或公认的定义，学界和业界往往从不同的角度对其进行说明。学界普遍认为Agent需要具备规划能力：例如李飞飞团队的多模态通用Agent范式中主要包括五个模块，1）环境与感知（Environment&Perception）模块进行长期任务规划和技能观察；2）学习（Learning）模块使Agent能力不断提升；3）记忆（Memory）模块使Agent学习到的知识可以被编码并在后续调用；4）认知（Cognition）模块使Agent能够针对任务采取最合适的行动，并允许环境反馈；5）执行（Action）模块用于完成特定任务或动作。

OpenAI强调Agent能够独立完成任务。OpenAI将AI Agent定义为“以大语言模型为大脑驱动的系统，具备自主理解、感知、规划、记忆和使用工具的能力，能够自动化执行并完成复杂任务的系统”。具体而言， Agent会将大型任务分解为子任务，规划执行任务的流程并进行评估；在执行任务的过程中，Agent具备记忆能力，其中短期记忆用于存储上下文以支持多轮对话，长期记忆则通过向量数据库实现，存储用户特征、业务数据等新信息；此外，Agent还能够通过API、插件调用外部工具，拓展应用能力。而在OpenAI近期发布的《智能体构建实用指南》中，Agent进一步被定义为“能独立完成任务目标的系统”，包括两大核心特征：1）使用LLM管理工作流执行并决策；能识别工作流完成状态，必要时主动纠正操作；失败时可中止执行并将控制权交还用户。2）配备多种工具与外部系统交互（获取上下文或执行操作），根据工作流状态动态选择工具，始终在明确定义的护栏内运行。

2.基于大模型构建核心能力， Agent类别多样

Agent AI的核心能力源于基础大模型的深度集成。以LLMs（大型语言模型）和VLMs（视觉语言模型）为代表的预训练模型，通过海量多模态数据的自监督学习，形成了对语义、视觉及环境上下文的理解能力，成为Agent智能行为的认知基座。具体而言，基于基础大模型的Agent通过任务规划和环境反馈实现自主决策，此时基础大模型能够作为数据生成器合成专家演示数据，以在环境约束下确定代理行为的基准，从而使Agent能够在虚拟世界中理解场景、生成内容和进行交互式编辑。 Agent AI的能力提升遵循“模仿学习→解耦→泛化→涌现”的递进范式。模仿学习阶段，多模态Agent整合基础大模型的跨模态数据源，利用强化学习（RL）和模仿学习（IL）构建物理与虚拟世界的映射，解决初始状态缺乏处理问题能力的难题。解耦阶段将学习过程与任务特定的奖励函数分离，使得该策略能够在不同任务之间泛化，而不依赖于特定的奖励函数。泛化阶段则通过识别系统行为的基本元素或规则，使系统能够适应新情境，展示出从简单规则中涌现的更复杂的行为。

3.NLP与多模态技术不断发展，Agent应用场景丰富

识别任务指令并执行一直是交互式AI和自然语言处理的核心挑战，大模型技术迭代下NLP Agent为进一步提升人机协作效率提供了可能。1）工具使用和知识库查询：将外部知识库、网络搜索或其他工具集成到 AI Agent的推理过程中，使Agent能够利用丰富数据源增强其理解能力，并提供更准确且具有上下文感知的响应。2）改进 Agent 推理和规划：通过开发能够理解复杂指令、推断用户意图并预测未来情境的模型，能够使Agent做出更明智的决策。例如，可以通过要求Agent反思过去的行为和失败，或通过将Agent思维过程进行展示以模拟不同结果并评估。3）整合系统和人工反馈：AI Agent 的运行环境主要分为两种，其中系统反馈指提供明确操作有效性信号的环境；人类反馈则与人类协作，由人工对操作提供反馈。Agent需要通过自适应学习机制不断学习和适应不同反馈来源，持续改进策略并纠正错误，从而确保始终有效地提供帮助，满足用户需求。

游戏作为虚拟的独立场景，能够为测试Agent行为提供独特的沙盒环境，从而帮助开发人员拓展Agent能力边界，具有大量应用方向。1）NPC 行为控制：当前游戏系统中NPC行为主要由预先设定的脚本控制，无法根据玩家的行为或游戏环境的动态变化进行调整，此时Agent可以用于用户互动式游戏的动作预测和互动编辑，进而提高互动的细腻感和吸引力。 2）玩家行为分析：当今的游戏系统在与人类玩家的互动方面存在不足，亟需AI 系统实时分析玩家行为并在必要时提供支持。通过结合玩家互动与反馈、像素输入以及自然语言的规划和理解，Agent可以优化游戏进程，推动游戏环境向玩家更期待的方向演进。3）场景合成：现代游戏通常包含广阔的开放世界环境，手动设计景观既耗时又耗费资源，通过AI能够减少人力成本，甚至创造出极具想象力的特殊结构。此外，大模型还能够遵循预定义或学习的规则辅助场景中的对象放置，使其满足光影效果和氛围需求，进一步提升游戏的沉浸感。

参考报告

人工智能行业分析：当前Agent的发展进行到了什么阶段？.pdf
- 查看报告