Agent概念定义
生成式AI智能体是一种能够自主运行的应用程序,它通过感知环境并调用相关工具来执行任务,以实现预设目标。其具备以下核心特征:首先,它拥有高度自主性,可在无需人工干预的情况下独立运作;其次,它表现出显著的主动性,能够自主制定行动计划;更重要的是,即使在没有人类明确指令的情况下,智能体也能通过自主推理确定最优行动路径,最终达成既定目标。
模型是智能体流程中央决策者。智能体可以使用一个或多个语言模型,这些模型可以是通用模型、多模态模型或经过微调的专用模型。
工具是连接智能体内部能力与外部世界的桥梁。借助工具,智能体可以访问和处理现实世界的信息,从而支持更专业的系统,如检索增强生成(RAG)技术等。因而智能体能够打破依赖基础模型的局限性,并执行比基础模型能够实现的更广泛的操作。
Agent与人类行为的对比
AI Agent或接力Chat bot,成为下一阶段主流AI产品形态。根据Lilian Weng在《LLM Powered Autonomous Agents》中对Agent的定义,Agent具备Memory(记忆存储),能够自主规划并调用工具执行任务。执行是下一阶段AI能力的重点,相较于当前主流的Chat bot这一产品形态来说,Agent能够直接交付结果,将大大延展AI在生产力工具范畴的能力边界。从AI的最终形态来看,AI能够在识别、理解、推理的基础上参与决策并执行操作是发展AGI的必经之路。
从设计理念来看,Agent的产品形态和工作流程可以看做人类行为习惯的多维度映射。比如Agent基于大模型进行决策,大模型承担了类似于“大脑”的角色。同时,Agent具备“知识库”(记忆)、工具使用(技能)等方面特征,同样具有“类人”特性。
Agent——协调者角色
以谷歌Agent示例来看,用户与Agent具体交互步骤包括: (1)用户输入查询指令后,Agent会主动构建结构化指令——整 合提示词和示例模板发送给模型; (2)模型根据接收到的提示词和示例模板解析用户意图,生成 JSON负载并通过Agent传到用户端UI; (3)用户端UI直接调用API并返回数据,以富格式内容向用户展 示结果。 在此过程中,模型的作用是提供客户端所需的参数,而实际的 API 调用由客户端 UI负责执行。在一些应用场景中,API最终的 响应数据也会返还给智能体,以便智能体在推理、逻辑决策或行 动选择中进行参考和利用。因而Agent在此过程中扮演的角色类似 于一个信息拆解、分配、处理的中枢。
具体来说,对B端客户,企业本身对于AI应用助力公司降本增效的需求较为明确。AI应用能够帮助企业提升的产能大于投入的成本,即ROI>1,就会刺激企业客户的付费意愿。而以Agent对劳动力的补充效应来说,人与AI的交互模式可以拆解为三种:Embedding模式、Copilot模式和Agents模式。在这三种模式中,Agents模式下,AI会完成绝大部分工作,人只需要设立目标、提供资源并且监督结果。由于在这种模式下,Agent能够直接交付成果,对于工作任务的完成度或对劳动力的补充效果指标更容易量化,因此更容易形成看得见的ROI提升。
并且,由于Agent能够辅助人类产生经济效益这一特性,企业对于AI的支出将从Capex转变Opex。Capex,即资本性支出,指用于获取或升级长期资产(如设备、厂房、技术)的大额投资,通过折旧/摊销分期转化为费用。Opex,即运营性支出,指维持企业日常运营的经常性费用(如工资、租金、水电费)。Agent能够部分替代劳动力职能,带来收益,因此对于Agent的资金投入相当于为劳动力付费,从而这部分资金未来将会从单纯的Capex转变为Opex,更进一步提升企业付费意愿。
时隔十年,“人工智能+”接力“互联网+”。2015年7月4日,国务院印发《关于积极推进“互联网+”行动的指导意见》,成为支撑“互联网+”蓬勃发展的顶层设计文件。十年后(2025年8月26日),国务院印发《关于深入实施“人工智能+”行动的意见》(下称《意见》)。关于人工智能的顶层设计文件出台,有望再次顺应时代发展的浪潮,引导人工智能技术加速赋能千行百业。关于智能体,《意见》中提出了两个总体目标和关键时间点:到2027年,新一代智能终端、智能体等应用普及率超70%;到2030年,新一代智能终端、智能体等应用普及率超90%。其次,《意见》提到了在软件、信息、金融、商务、法律、交通、物流、商贸等领域,推动新一代智能终端、智能体等广泛应用。以及,提到培育人工智能应用服务商,发展“模型即服务”、“智能体即服务”等商业模式。与“互联网+”相比,“人工智能+”总体目标更具体、可量化。
AI Infra建设高速发展,为Agent生态繁荣创造先决条件。在AI战略驱动下,海外云厂微软,谷歌,亚马逊,Meta等北美云厂近年来不断调高资本开支,加码对AI和云基础设施的投入力度。2025年初,阿里在业绩说明会上表明计划在未来三年内对AI和云计算基础设施的投资超过过去十年的总和。2025年9月,阿里官方表示,将持续追加更大投入。对比2022年,2032年阿里云全球数据中心能耗规模将提升10倍。以阿里上调资本开支为起点,预计国内大厂资本开支预期将延续上调趋势。
推理算力持续高速增长。据IDC预测,到2028年,预计中国AI服务器中73%的工作负载将用于推理。推理侧与应用端直接挂钩,随大厂资本开支预期进一步上调,推理侧算力边际增长加快。
MCP(模型上下文)协议是由Anthropic于2024年11月推出的开放协议,可类比为“AI应用程序的USB-C接口”——正如USB-C通过统一物理接口连接各类外设,MCP为AI模型与多样化数据源及工具建立了通用交互标准。在MCP出现之前,AI应用依赖手动API布线、插件接口或代理框架等碎片化方式与外部工具交互,这种模式要求为每个服务开发专用集成,不仅导致系统复杂性激增,还严重限制了可扩展性。MCP出现后,开发者无需重复编写适配代码即可构建复杂工作流和Agents,有效解决了传统AI面临的“数据孤岛”和“工具碎片化”的难题,更通过开放协议催生了跨平台协作生态,使得开发者能聚焦业务逻辑而非底层适配,加速了AI应用的规模化落地。
大厂入局,MCP生态持续繁荣。(1)海外:OpenAl、谷歌、微软和亚马逊等海外大厂陆续宣布支持或集成MCP协议。(2)国内:阿里云百炼平台、腾讯云、百度千帆大模型平台等官宣支持MCP协议。
A2A(Agent2Agent)协议是由谷歌推出的一个开放标准,旨在实现智能体之间的相互对话,能够在一个由不同框架和不同供应商构建代理的世界中提供一种通用语言,便利Agent与Agent之间的沟通。A2A主要的作用包括:通过代理卡发现彼此(Agent)的高级技能和能力;协商交互方式(文本、文件、结构化数据);管理共享的、可能需要长时间运行的任务;交换对话上下文、指令和复杂的多部分结果。
A2A与MCP协议共同构建了稳健的Agent应用的互补标准。区别在于,MCP通过结构化输入/输出连接代理与工具、API和资源,可以视为Agent获取其功能的方式,更侧重于智能体的使用能力。A2A则促进不同代理之间作为对等体的动态、多模态通信,更侧重于智能体合作完成任务。也就是,一个Agent可能会使用 A2A 与其他Agent进行通信,而每个Agent内部则使用 MCP与其特定的工具和资源进行交互。
通用Agent是一种能够处理多种任务和应用场景的AI系统。它们通常具有广泛的知识和能力,可以在不同的环境中执行各种任务。例如,像ChatGPT这样的通用Agent可以进行对话、回答问题、生成文本等。通用Agent的优势在于其灵活性和广泛的适用性,但在特定领域的专业性和准确性可能不如垂直Agent。
垂直Agent专注于特定领域或行业,提供高度定制化的解决方案。它们通常集成了该领域的专业知识和数据,能够在特定场景中提供高精度的服务。例如,医疗诊断Agent可以准确识别疾病并提供循证医学支持的诊断建议,金融风控Agent可以实时分析交易模式并识别潜在的欺诈行为。
垂类Agent 依托企业多年积累的结构化、深加工专业数据,形成通用大模型无法通过公开语料“想象”补齐的专业壁垒。在应用场景中,垂类Agent直接嵌入企业核心业务流程,把“感知-决策-执行”做完整,替代的是高成本、重复性人力工作,降本增效立竿见影,客户付费意愿高。由于垂类Agent更容易解决“AI最后一公里”难题,我们认为垂类Agent有望出现数量上的繁荣。
OpenAI:2025年7月17日,OpenAI更新ChatGPT 智能体。OpenAI推出ChatGPT 智能体,融合Operator和Deep research核心功能。本次发布的ChatGPT智能体集成在ChatGPT当中,本质上是OpenAI前期发布的两个产品——Operator和Deepresearch的结合。ChatGPT 智能体既有Operator 能够在网页上滚动、点击和输入文本的远程网页预览能力,也有Deep research擅长分析和总结信息的优势。在模拟复杂现实世界任务的基准测试中,ChatGPT 智能体的输出结果在约一半的案例中与人类表现相当或更优,且在任务完成时间范围内,其表现显著优于 o3 和 o4-mini。测试中的任务来源于现实世界,包括具有经济价值的复杂工作任务,例如对按需急诊服务提供商进行竞争分析、编制详细的摊销计划,以及为新的绿色氢能设施识别可行的水井。我们认为通用Agent的能力边界仍在持续拓展,各Agent产品在工具调用和任务领域上会更为追求“大而全”。
Anthropic:2025年5月,Anthropic推出新一代Claude 模型——Claude Opus 4和Claude Sonnet 4,两个模型均可在扩展思考模式下均支持工具调用(如网络搜索),Claude能够动态切换推理与工具使用流程,从而优化最终响应质量。此外,Anthropic API上新发布了四个新功能,帮助开发者构建更强大的 AI 代理:代码执行工具、MCP 连接器、文件 API,以及能够缓存提示长达一小时的能力。
谷歌:2025年,谷歌开始将智能体功能引入 Chrome、搜索和 Gemini 应用中。其中,Gemini 应用中Agent Mode的实验版本即将推出。Agent Mode展现了一个智能体的雏形。比如在帮助用户寻找公寓的案例中,它能帮助用户在 Zillow 等网站上找到符合条件的房源,调整过滤器,并使用MCP 访问房源,甚至为用户安排看房。
模型持续领先,开源推动行业共同进步。DeepSeek R1后,国产开源大模型形成的优势持续。2025年7月18日,据国际权威大模型排行榜LMArena,KimiK2接棒DeepSeek-R1-0528,成为全球排名第一的开源模型,大模型总榜全球第5名。截至10月27日,全球排名前10的模型中,国产模型占三席,分别为qwen3-max-preview、glm-4.6、qwen3-max-2025-09-23。国产 AI 在全球竞争中不断取得新突破,开源生态日渐繁荣,中国开源模型在全球影响力上持续提升。我们认为,中国 AI企业正凭借底层技术创新在国际竞争中崛起。
阿里巴巴:Agent将成为AI时代中的“软件”。阿里于9月云栖大会上正式提出ASI战略,提出AI的终极目标是超级人工智能。阿里认为,AI时代中,互联网时代所产生的操作系统和软件生态将被颠覆,大模型将扮演操作系统的角色,Agent将成为AI时代中的“软件”。吴泳铭在主旨演讲中将AI的未来路径从AGI延伸到ASI,描绘了清晰的三阶段演进:智能涌现(学习人) → 自主行动(辅助人) → 自我迭代(超越人)。我们当前正处于自主行动时期,Agent的发展是我们走向自主迭代时期的关键。在此过程中,人类将要适应和智能体共同工作,与智能体共同分担社会角色。
阿里以AI战略为导向,Agent产品从概念走向交付,通过完整的开发框架、20万开发者构建的80万个Agent。Agent正在走出实验室,进入生产环境。截至2025年9月24日数据,随着模型能力的不断提升以及Agent应用的爆发,阿里云百炼平台的模型日均调用量在一年内增长了15倍。



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)