Agent定义尚未明确,但类别及应用场景已然丰富。
工程师流程调优与否对应Agent发展的两条不同路线。传统的软件系统大多遵循清晰的“请求-响应”模式,即前端(用户) 发送请求,后端(软件)接收请求,访问数据库,执行变更,最终返回结果,这种模式使得软件可以根据用户的需求进行定 义,软件工程师可以通过对代码、架构的精细打磨优化产品性能。而在AI时代,依靠大模型进行动态推理和生成响应则存在 大量的模糊计算,软件的响应不再由静态代码决定,而是基于不断进化的模型能力动态驱动,此时软件工程师对产品额外的 优化代码可能会在模型更新后失去意义,甚至完全失效。上述情形反映到Agent中对应了两条路径,一是由工程师设计复杂 的工作流,让模型在框架里运行;二是不断提升大模型的推理能力,搭建更灵活、通用的Agent。 学界普遍认为Agent需要具备规划能力。目前Agent尚没有统一或公认的定义,学界和业界往往从不同的角度对其进行说明。 学界普遍认为Agent需要具备规划能力:例如李飞飞团队的多模态通用Agent范式中主要包括五个模块,1)环境与感知 (Environment&Perception)模块进行长期任务规划和技能观察;2)学习(Learning)模块使Agent能力不断提升;3)记忆 (Memory)模块使Agent学习到的知识可以被编码并在后续调用;4)认知(Cognition)模块使Agent能够针对任务采取最合 适的行动,并允许环境反馈;5)执行(Action)模块用于完成特定任务或动作。
OpenAI强调Agent能够独立完成任务。OpenAI将AI Agent定义为“以大语言模型为大脑驱动的系统,具备 自主理解、感知、规划、记忆和使用工具的能力,能够自动化执行并完成复杂任务的系统”。具体而言, Agent会将大型任务分解为子任务,规划执行任务的流程并进行评估;在执行任务的过程中,Agent具备记 忆能力,其中短期记忆用于存储上下文以支持多轮对话,长期记忆则通过向量数据库实现,存储用户特征、 业务数据等新信息;此外,Agent还能够通过API、插件调用外部工具,拓展应用能力。 而在OpenAI近期发布的《智能体构建实用指南》中,Agent进一步被定义为“能独立完成任务目标的系 统”,包括两大核心特征:1)使用LLM管理工作流执行并决策;能识别工作流完成状态,必要时主动纠 正操作;失败时可中止执行并将控制权交还用户。2)配备多种工具与外部系统交互(获取上下文或执行 操作),根据工作流状态动态选择工具,始终在明确定义的护栏内运行。

Agent AI的核心能力源于基础大模型的深度集成。以LLMs(大型语言模型)和VLMs(视觉语言模型)为 代表的预训练模型,通过海量多模态数据的自监督学习,形成了对语义、视觉及环境上下文的理解能力, 成为Agent智能行为的认知基座。具体而言,基于基础大模型的Agent通过任务规划和环境反馈实现自主决 策,此时基础大模型能够作为数据生成器合成专家演示数据,以在环境约束下确定代理行为的基准,从而 使Agent能够在虚拟世界中理解场景、生成内容和进行交互式编辑。 Agent AI的能力提升遵循“模仿学习→解耦→泛化→涌现”的递进范式。模仿学习阶段,多模态Agent整合 基础大模型的跨模态数据源,利用强化学习(RL)和模仿学习(IL)构建物理与虚拟世界的映射,解决初 始状态缺乏处理问题能力的难题。解耦阶段将学习过程与任务特定的奖励函数分离,使得该策略能够在不 同任务之间泛化,而不依赖于特定的奖励函数。泛化阶段则通过识别系统行为的基本元素或规则,使系统 能够适应新情境,展示出从简单规则中涌现的更复杂的行为。
识别任务指令并执行一直是交互式AI和自然语言处理的核心挑战,大模型技术迭代下NLP Agent为进一步 提升人机协作效率提供了可能。1)工具使用和知识库查询:将外部知识库、网络搜索或其他工具集成到 AI Agent的推理过程中,使Agent能够利用丰富数据源增强其理解能力,并提供更准确且具有上下文感知的 响应。2)改进 Agent 推理和规划:通过开发能够理解复杂指令、推断用户意图并预测未来情境的模型,能 够使Agent做出更明智的决策。例如,可以通过要求Agent反思过去的行为和失败,或通过将Agent思维过程 进行展示以模拟不同结果并评估。3)整合系统和人工反馈:AI Agent 的运行环境主要分为两种,其中系统 反馈指提供明确操作有效性信号的环境;人类反馈则与人类协作,由人工对操作提供反馈。Agent需要通过 自适应学习机制不断学习和适应不同反馈来源,持续改进策略并纠正错误,从而确保始终有效地提供帮助, 满足用户需求。
游戏作为虚拟的独立场景,能够为测试Agent行为提供独特的沙盒环境,从而帮助开发人员拓展Agent能力 边界,具有大量应用方向。1)NPC 行为控制:当前游戏系统中NPC行为主要由预先设定的脚本控制,无 法根据玩家的行为或游戏环境的动态变化进行调整,此时Agent可以用于用户互动式游戏的动作预测和互动 编辑,进而提高互动的细腻感和吸引力。 2)玩家行为分析:当今的游戏系统在与人类玩家的互动方面存 在不足,亟需AI 系统实时分析玩家行为并在必要时提供支持。通过结合玩家互动与反馈、像素输入以及自 然语言的规划和理解,Agent可以优化游戏进程,推动游戏环境向玩家更期待的方向演进。3)场景合成: 现代游戏通常包含广阔的开放世界环境,手动设计景观既耗时又耗费资源,通过AI能够减少人力成本,甚 至创造出极具想象力的特殊结构。此外,大模型还能够遵循预定义或学习的规则辅助场景中的对象放置, 使其满足光影效果和氛围需求,进一步提升游戏的沉浸感。