自 2025 年 3 月 Monica 团队发布通用 Agent-Manus 以来,多个 AI Agent 的通用应 用也相继落地。
Manus 是由 Monica 于 2025 年 3 月 6 日发布的通用型 AI Agent,其核心定位是作 为“数字员工”,能够在隔离的沙盒环境中自主运行,并调用各类工具完成复杂任 务。该应用将基础模型(如 Claude 和 Qwen)封装在一个强大的执行框架内。其 目标是让 AI 从一个被动的问答工具,转变为一个能够理解用户意图、自主规划并 执行多步骤任务的主动工作伙伴。 1) “CodeAct”范式下的自主代码执行。Manus 的核心创新在于其“代码即行 动”(CodeAct)范式,即将可执行的 Python 代码作为与数字世界交互的主要 方式,而非依赖有限的预设指令。这种理念将代码视为描述复杂操作的最通 用语言,使得 AI 在接到任务时,能像人类开发者一样生成包含条件逻辑、循 环和错误处理的脚本来完成动作。其优势在于极大的灵活性和强大的能力, AI 可以在代码执行出错后分析信息、修改代码并重试,实现“自主调试”,从 而将自身的操作空间扩展到数据分析、软件开发等几乎无限的编程领域。 2) 沙盒化的云端环境与模块化工具集。为确保安全与稳定,Manus 在云端一个 完全隔离的虚拟计算环境中运行。每个任务都会被分配一个独立的沙盒 (Sandbox),这本质上是一个预装了完整操作系统的 Docker 容器。在这个受 控的环境中,Manus 被授予了一套强大的模块化工具集,可以像人类一样使 用终端执行系统命令、控制无头浏览器浏览网页并交互、在文件系统中读写 数据以保存工作进度。这种沙盒化的架构,既赋予了 AI 强大的执行能力,又 保证了所有操作都在安全可控的范围内进行,不会影响外部系统。 3) 多模型、多智能体的后台编排架构。Manus 的强大能力由一个复杂的后台编 排系统支撑,该系统能够动态调度多种 AI 模型和内部模块。虽然 Manus 并 未公开其技术细节,但根据技术架构推测,Manus 的“大脑”并非单一模型, 而是根据任务性质灵活调用 Claude、Qwen 乃至 GPT-4 等不同模型的混合骨 干。系统的运作遵循一个“分析-规划-执行-观察”的清晰智能体循环,确保 每一步行动都稳健且可控。此外,其架构支持多智能体协作,通过规划智能 体(Planner Agent)、执行智能体(Execution Agent)和验证智能体(Verification Agent)三个核心智能体的协同工作来处理任务,从而高效地完成生成完整报 告或部署网站等复合型任务。
Genspark Super Agent 是由 MainFunc 所推出的 AI 原生工作平台。该产品最初于 2024 年 6 月 18 日以“AI Agentic Engine”的定位面世,经过快速迭代,现已发展 成全面的智能工作系统。它集成了一系列功能强大的 Agents,包括能够处理复杂 任务的高级 Agents(如 AI Slides、AI Sheets、AI Docs 和 Deep Research 等),以及 支持多模态内容创作的基础智能体(如 Image Studio 和 Generate Video)。其目的 是通过“智能体混合系统”将用户从繁琐的执行流程中解放出来:用户提出目标, Genspark 便能自主完成研究、分析、内容创作及信息核实等一系列复杂任务。 1) “Vibe Working”理念下的无缝自动化体验:Genspark 的核心产品哲学是 “Vibe Working”,旨在通过自然语言提示实现所有工作的自动化,从而根本 性地提升工作效率与体验。这一理念贯穿其所有产品线,其核心假设是,在 AI 时代,用户应专注于表达意图(“Vibe”),而非构建复杂的工作流。例如, Genspark 在 2025 年 7 月 2 日推出的 AI Docs 产品允许用户通过单一提示创 建任何类型的文档,而 Super Agent 则能自主处理诸如拨打电话、生成演示文 稿等复杂任务,无需用户进行任何工作流配置或设置。 2) 垂直整合的全 Agentic 工具套件:Genspark 通过系统性地发布一系列互联互 通的 Agentic 工具,构建了一个其称之为“一体化 AI 工作空间”的闭环生态 系统。这个产品矩阵始于 AI 搜索,并扩展至 AI 浏览器、AI Docs、AI Slides、 AI Sheets、AI Drive 等核心生产力工具,形成了 Genspark 所描述的“AI 时代 的经典生产力三件套”。 3) 多模型、多工具的后台编排架构:Genspark 的强大功能由一个复杂的后台编 排系统支撑,该系统能够动态地调度和管理多种 AI 模型与工具。Genspark 在 后台协同运作 9 个专业化的大型语言模型和超过 80 个集成工具,为每个子任 务动态分配最合适的组件。其系统深度集成了 OpenAI 的模型,包括 GPT-4.1 和用于图像生成的 GPT-image-1。其语音智能体功能“Call For Me”则利用 OpenAI Realtime API 实现自然流畅的实时通话,并通过一个独特的双层系统 (由 Realtime API 处理实时对话,一个“影子模型”通过消息队列进行监控和引导)来确保交互的连贯性。此外,Genspark 还发布了自有的“混合智能 体(Mixture-of-Agents, MoA)”系统,并在其 v2 版本中集成了 Gemini 2.0 等 业界领先模型,以追求最佳性能。这种将复杂性作为服务(Complexity as a Service)的模式,是 Genspark 的核心价值主张。用户无需关心底层模型的选 择与工具的调用,平台本身就是那个智能的“调度中心”。
Fellou 是一款智能体浏览器(Agentic Browser),2025 年 5 月 11 日发布,深度融 合了浏览器、机器人流程自动化(RPA)与自主智能体技术,能够精准理解用户的 自然语言指令,并将复杂任务自主拆解为跨网页的自动化工作流,以执行深度搜 索、数据整合及报告撰写等操作。 1) 作为开源基础的 Eko 框架。Eko(Eko Keeps Operating 的缩写)是一个生产 级的开源 JavaScript 框架,专为创建从简单命令到复杂工作流的可靠 AI 智能 体而设计。它是 Fellou 浏览器的技术基石,但也被作为一个独立的开发者工 具提供。Eko 框架的核心特性是其统一的接口,支持智能体在计算机和浏览 器两种环境中无缝运行。它具备多智能体协同、灵活的工具与智能体定制、 人机协同(Human-in-the-loop)干预以及动态选择大型语言模型等高级功能。 Eko 的开源性质及其详尽的文档,使其成为开发者构建自定义 Agentic 工作流 的强大基础。 2) 用于跨应用自动化的“深度行动”工作流。Fellou 浏览器的标志性功能是其 “深度行动-工作流”(Deep Action-Workflow),它允许智能体自主执行跨越多 个应用程序的复杂任务。用户只需给出一个简单的高级指令,例如,“查找下 个月从纽约到伦敦的最便宜航班,预订最佳选项并将其添加到我的日历”,智 能体便会接管浏览器甚至其他桌面应用,自主完成整个多步骤流程。它能够 像人类用户一样“看到”屏幕,点击按钮,填充表单,并在不同网站之间无 缝跳转,全程无需人工干预。此外,用户还可在任务执行中随时进行实时干 预以调整方向,避免重复操作;通过 Deep Action 可视化编辑功能,用户能以 拖拽方式直观地调整步骤,使规划流程完全透明可控。这些强大能力背后是 Eko 框架对浏览器和计算机自动化任务的底层支持。 3) 面向开发者的混合语言设计。Eko 框架从设计之初就强调其“生产级”的可 靠性,并通过一种独特的混合设计语言来满足开发者的需求。该框架允许开 发者同时使用自然语言和传统的编程语言(JavaScript/TypeScript)来编写智 能体。这种设计旨在弥合高级、模糊的任务描述与底层、精确的系统操作之 间的鸿沟,这对于构建商业级的可靠应用至关重要。许多早期的智能体框架 虽然擅长快速原型验证,但在可靠性和确定性上表现不佳。Eko 的混合语言 设计直接解决了这一痛点:开发者可以用自然语言定义工作流的灵活部分, 同时用经过严格测试的代码来控制关键的、不容出错的操作。这种对生产可 靠性的关注,使得 Eko 对于那些希望构建商业化智能体应用的开发者极具吸 引力。
Skywork Super Agents(天工超级智能体)由昆仑万维旗下“天工 AI 搜索引擎”发 展而来,在历经数次版本迭代后,于 2025 年 5 月 22 日正式发布。作为一款集搜 索增强、多模态生成与复杂任务分解能力于一体的智能平台,Skywork 的核心是 其基于混合专家模型(MoE)构建的智能体(Agent)系统。该系统利用高效的推 理与多任务处理能力,将用户的自然语言指令转化为复杂的自动化工作流,实现 从内容生成到数据分析的全流程赋能。
1) 强大的混合模型架构。Skywork 的核心驱动力是其专有的混合专家模型 (Skywork-MoE),该模型通过动态分配专家模块来处理多样化任务,显著提 升推理效率和准确性。Skywork-MoE 支持多模态输入(如文本、图像),并能 自动优化资源分配,确保在内容生成、代码编写或数据分析等场景中实现高 性能输出。这种架构类似于“复杂性即服务”,用户无需手动配置模型细节, 平台即可智能调度。 2) 一体化 Agentic 工作空间。Skywork 提供了一套垂直整合的智能 Agent 工具, 包括 AI 写作、图像生成和数据分析等功能。这些 Agent 被设计为互联互通, 形成一个闭环生态系统。例如,用户可以通过单一提示启动“AI Writer”Agent 来自动生成文档,或使用“Image Studio”Agent 进行多模态创作。其目标是 让用户专注于意图表达,而非工作流构建,从而提升生产力。 3) 多工具与 API 集成。Skywork 的后台系统支持与多种外部工具和 API 的无缝 集成,如结合 OpenAI 模型或自定义 SDK。通过动态编排机制,Skywork 可 以调用超过 50 个集成工具(包括数据处理和实时通信模块),以处理复杂任 务。例如,在语音交互场景中,Skywork 利用类似“Call For Me”的 Agent 实 现自然对话,并通过双层监控系统确保交互连贯性。
Minimax Agent 是由稀宇极智(MiniMax)研发的 AI 智能体,其核心定位是成为 一个“靠谱”的数字员工。通过一套自研的复杂技术架构,调度多个“专家模型” 协同工作,Minimax Agent 旨在理解用户的复杂指令,并自主规划、执行包含多个 步骤的长程任务,最终交付高标准、可直接使用的成果,将 AI 从被动的问-答工 具转变为真正赋能生产力的主动工作伙伴。 1) “一句话开发”的全栈应用构建能力:2025 年 7 月 16 日,Minimax Agent 正 式上线全栈开发功能。用户仅需用一句话描述需求(例如“帮我做一个类似 Netflix 的电影推荐网站”),Agent 便能自主完成从前端界面设计、后端逻辑 开发、数据库搭建到最终部署的全过程。它不仅能编写代码,还能主动进行 功能测试和 UI 自动化测试,确保交付应用的完整性和可用性。这种端到端的 自动化能力,极大地降低了复杂软件应用的开发门槛。 2) 强大的自主调试与闭环纠错机制:该智能体的核心优势之一在于其强大的自 主纠错能力。在执行任务(尤其是编程任务)时,如果遇到代码执行失败、 环境配置错误或 API 调用不通等问题,Minimax Agent 能够像人类资深开发 者一样,主动阅读和分析错误日志(stack trace),定位问题根源,然后自主编 写新的代码来修复 bug 或解决环境问题,并重新尝试执行。这种“分析-试错 -修正”的闭环工作流,使其能够攻克传统代码生成模型难以处理的动态错误, 从而极大地提升了任务的成功率和交付成果的可靠性。 3) 领先的多模态理解与内容生成生态:Minimax Agent 的能力构建于其强大的 自研多模态基础模型之上。它通过一个名为 MCP(Multimodal Content Provider) 的生态系统,集成了业界领先的文本、图像、音频、视频生成能力。这使其 在执行任务时,不仅能处理和分析文本信息,还能深度理解多种媒体格式的 输入,并一键式地输出图文并茂、音画结合的丰富内容,例如在制作演示文 稿或研究报告时,能自主配图、生成数据图表,甚至嵌入解说音频。4) 面向复杂长程任务的智能“专家模型”调度架构:为了高效、可靠地完成“长 程复杂任务”(Long Horizon Complex Tasks),Minimax Agent 的后台采用了 一套创新的调度系统。该系统会首先将用户的宏观指令拆解成一系列有序的 子任务,然后在执行每个子任务时,根据当前任务的性质(例如,规划、编 码、内容撰写、数据分析、验证等),从其模型库中智能地调用最擅长该领域 的“专家模型”来执行。这种灵活的、各司其职的模块化协作模式,确保了 任务流中每一个环节都能达到最优的输出质量,从而保障了最终成果的专业 性与可靠性。
OpenAI 于 2025 年 7 月 17 日正式推出 ChatGPT Agent,其核心本能力在于代表用 户在网络上执行复杂的、端到端的工作流,例如预订行程、管理邮件、构建网站 乃至进行深度研究并生成报告。

1) 融合深度研究与自主行动的统一架构:ChatGPT Agent 的核心在于整合了 OpenAI 此前分别推出的两个专业工具:“Operator”和“Deep Research”。 Operator 专注于通过模拟人类交互来浏览和操作网站,而 Deep Research 则擅 长进行多源信息综合与分析。将两者的能力无缝结合,ChatGPT Agent 既能进 行深入的、跨越多个来源(包括公共网站、用户上传的文件和连接的第三方 应用)的研究,又能基于研究结果采取具体行动,如填写表单或编辑电子表 格。
2) 强大的工具集与虚拟计算机:为实现自主操作,该智能体被授予了一个强大 的工具集,并在虚拟计算机中运行。该工具集包括:通过图形用户界面与网 络交互的可视化浏览器、用于简单推理型网络查询的文本浏览器、终端以及 直接 API 访问权限,以及访问公开 API 的能力。这种多工具方法使智能体能 够根据任务的性质选择最高效的执行方式,例如,在需要视觉理解的网站上 使用可视化浏览器,在处理数据时则调用终端。
3) 连接器与第三方生态系统集成:ChatGPT Agent 通过“连接器”(Connectors) 功能,能够安全地访问用户的第三方应用程序,如 Gmail、Google Drive 和 GitHub。一旦用户授权,智能体就可以读取邮件、检索云端文件或访问代码 库,从而将用户的个人和工作数据作为其执行任务的上下文。例如,它可以 根据用户日历和邮件内容来规划会议,或利用 Google Drive 中的文档来创建 PPT。
4) 用户协同与安全控制:ChatGPT 智能体的设计仍确保用户始终处于控制地位。 智能体在执行发送邮件或提交表单等关键操作前会暂停并请求用户确认。用 户可以在一个侧边窗口实时监控智能体的所有行动,并随时介入以修改指令、 暂停或完全终止任务。对于需要输入密码等敏感信息的登录过程,智能体会 提示用户进入接管模式,在此模式下由用户手动输入,期间系统不会记录截 图或密码,以保障账户安全。