2025年计算机行业深度报告：大脑，具身智能落地的关键

东吴证券2025/10/28
举报

1. 机器人大脑的定义和能力

从逻辑结构上看，人形机器人由大脑、小脑、肢体三部分组成。“大脑”主要基于 AI 大模型，根据环境、任务和目标等信息，自主做出最优决策，以实现自主导航、任务执行、人机交互等功能。“小脑”基于人工智能、自动控制、机器人操作系统（ROS）等技术，实现复杂环境下的运动控制。“肢体”基于多种传感器，能够感知非结构化场景并根据不同情况做出反应，实现高动态、高精度的运动。相比其他类型机器人，人形机器人对智能感知、智能决策、运动控制、人机交互的综合能力要求更高。

人形机器人“大脑”技术以大模型为核心，为人形机器人提供任务级交互、环境感知、任务规划和决策控制能力。在任务交互方面，基于大模型的语言/视觉运行处理方式可为人形机器人提供任务级交互入口。在环境感知方面，大模型通过对多模态信息的统一处理与灵活转换，推动多模态感知泛化。在任务规划方面，大模型潜在的真实世界知识学习能力、强大的思考、推理和生成能力为“大脑”的任务规划提供基础。在决策控制方面，人形机器人基于大模型技术并优化奖励策略，通过整合环境、运动等多样化信息，实现决策控制功能。从功能需求角度出发，人形机器人的“大脑”大模型需要具备以下能力：实时交互能力。人形机器人需要具备与人类实时的任务级交互能力，快速理解人类通过语言、手势等方式给出的指令，并有效执行。当出现指令理解不清或任务执行完毕后，可以与人类进行进一步的多轮交互。多模态感知能力。为了在复杂环境中做出正确决策，人形机器人要能够通过视觉、听觉、触觉等多种感官获取信息。大模型需要整合这些多模态感知数据，以实现对环境的全面理解。

自主可靠决策能力。人形机器人在执行任务时，需要能够理解任务的复杂性，并将其分解为一系列可执行的子任务。这要求大模型具备强大的语言理解能力和对物理世界的深刻理解。例如，机器人可能需要理解“清理房间”这一任务，包括识别哪些物品需要移动，哪些需要丢弃。涌现和泛化能力。除了在训练数据上的表现，大模型还应具备超出训练范围的执行能力。具体表现为人形机器人能够在未见过的新环境中执行任务，适应新的、未知的情况。面对新挑战时，展现出创新性的解决方案。机器人大模型和通用大模型有一定区别，难以直接共用。LLM 是“语言预测器”，不是机器人控制器。LLM 的训练目标是下一个 token 的概率建模，它擅长把语言模式、常识与统计相关性连成可读文本，但并不包含传感器实时流、物理动力学或机器人本体的低阶行为模型。这意味着 LLM 很擅长“告诉你怎么做一件事”的文本步骤，但不能保证这些步骤在当前机器人成本结构/环境/物理条件下可执行。

2. 人形机器人大模型多技术路线并行探索

从技术路线上看，目前基于大模型的“大脑”技术路线正处在并行探索阶段，并逐渐向端到端的大模型演进。具身智能算法层的技术路线，存在三条主流路径。第一条是端到端 VLA 技术路线，采用单一模型直接从感知到动作的端到端学习方式，虽然具备一定泛化能力，但主要适用于短程任务，在复杂长程任务上存在局限性。第二条是大脑+小脑分层技术路线，这是目前相对成熟的主流方向。该路线以多模态大模型作为“大脑”负责高层决策和任务规划，配合专门的“小脑”模型处理具体的运动控制和执行任务，通过分层协作实现更强的任务处理能力。第三条是世界模型技术路线，代表最前沿的探索方向。世界模型旨在构建对物理世界的完整建模，通过预测未来状态来优化动作决策。北京大学计算机学院助理教授仉尚航在论坛上指出，“目前 VLA 还是一个非常难的问题，有很多研究的空间。世界模型的研究仍处于特别早期，大小脑技术路线可以实现模块化、可泛化和可解释的一些优势。” 此外，类脑智能和脑机接口等创新技术也为人形机器人“大脑”的解决方案带来无限可能。类脑智能是人工智能技术的进一步延伸，是通过对人脑生物结构和思维方式进行直接模拟，使智能体能够像人脑一样精确高效处理多场景下的复杂任务，是未来有望代替大模型的新技术路线。脑机接口是在人脑与外部设备间建立连接通路的技术，实现人脑与外界设备的信息交换。未来有望基于脑机接口实现“大脑”的“人+机”混合智能。

3. 人形机器人大脑行业参与者

人形机器人大脑行业的参与者分为三种。第一种是专门做机器人大脑的公司，例如中国的通研院，美国的 Physical Intelligence 和 Skild AI 等。第二种是通用大模型公司，例如谷歌、openAI、字节、阿里等。第三种是具身智能企业自研，例如智元机器人、特斯拉等。我们认为三种参与者各有优劣势，最终在机器人大脑市场都会有一席之地。专门做机器人大脑的公司更加专注，同时了解基础模型和物理交互，能够为专注于本体研究的机器人公司进行 AI 赋能。通用大模型公司具备强大的基础模型能力，但是对物理世界和场景了解有限。机器人本体企业自研能够实现软硬件的最优化，但是出于竞争关系，其他机器人本体企业较难采用其大模型。

4. 具身智能大脑是具身智能发展的关键瓶颈

王兴兴强调，智能体机器人当下和未来所面临的最关键挑战是机器人大模型，这也是限制人形机器人大规模应用的最大阻碍。

机器人大模型的发展进度类似于当时 ChatGPT 发布前 1 年-3 年的那个阶段。业界已经发现了类似的方向以及技术路线，但还没人真正将其做出来。王兴兴表示，这一临界点最快可能在未来的 1-2 年实现，慢的话可能需要 3-5 年。“之所以目前机器人还未能达到上述效果，现在最大的问题是模型问题，而不是数据问题。”王兴兴认为，目前全球范围内大家对于数据方面的关注度一定程度上是偏高的，反而不够关注模型问题。

5. 具身智能大模型研发的难点

具身智能大模型训练数据难以获得。不同于文本、图像等互联网数据可以轻松爬取和积累，具身智能需要的是机器人与物理世界交互的行为数据，这类数据天然稀缺且获取门槛极高。数据主要分为真实数据与仿真数据。真实数据被公认为训练效果最好的“黄金数据”，但采集成本更高，并且格式不统一。不同机器人本体由于硬件设计、控制系统的差异，产生的数据在坐标系定义、时间戳格式、动作标签规范上完全不兼容，每个机器人平台都需要重新积累数据，严重制约了技术迭代效率。即使是同一个抓取任务，不同操作员的执行轨迹可能相差很多。智源研究院具身数据负责人姚国才直言：“采集数据过程中有大量不可控的因素。举例假设这个采集员去桌面抓一个苹果，他做的动作，采了 100 次，动作非常标准，100 次一模一样，100 条数据等于一条，不具备价值。”相比之下，仿真数据可以大规模生成，成本低廉，但训练出来的模型往往不适应。现有仿真环境很难准确还原真实世界的复杂物理交互，特别是遇到柔性物体操作、复杂环境建模时，仿真与现实的差距就暴露无遗。国地共建人形机器人创新中心副总经理刘宇飞在现场表示：“我们在全国 8 个省市开展了虚实结合的训练场工作，发现仿真数据可以帮助去做数据的增强、纹理、光照等方面的工作，而且它的增强效果非常明显。”

具身智能学习训练难度大。具身智能的学习训练方法还有待探索，目前企业多采用世界模型、遥控操作、仿真迁移、模拟训练等方法，但都有局限性，无法获得通用泛化能力。机器人操控的本质，是与物体发生物理接触，而接触这个行为，会让问题的难度呈指数级上升。具身智能大模型难点在于如何创造一个可以大规模应用于任何任务的配方，只需有一个小配方，然后一个接一个地应用，每个任务都能接连解决，无论使用的是何种硬件。

6. 全球各大机器人大脑厂商百花齐放

6.1. Tesla Optimus

2025 年 10 月，埃隆・马斯克在社交平台发布的一段视频，展现特斯拉 Optimus 人形机器人身着黑色作战服，精准复刻抱拳、弓步、格挡等武术动作，面对对手的随机出拳能即时反击，整套动作连贯流畅且始终保持平衡。马斯克特意澄清：“这不是遥控表演，而是 AI 自主决策的结果”，代表特斯拉机器人大模型取得了重要进展。 Optimus 机器人大模型最核心的突破在于抛弃了传统机器人的“模块化分工”模式，采用与特斯拉 FSD 自动驾驶同源的单一基础模型架构，实现了从感知到行动的端到端自主决策。 xAI Grok 深度融合：赋予机器人逻辑推理与记忆。2025 年 Gen 3 版本的关键升级，是将 xAI 的 Grok 模型整合为高级认知模块，让 Optimus 从执行机器升级为思考机器。 Grok 模型主要承担三大功能：自然语言深度理解：不仅能识别“拿一杯水”这类简单指令，还能解析“把客厅茶几上的玻璃杯装满温水，温度不要超过 40 度”等复杂需求，准确率达 92%以上。情感互动与场景推理：通过语音语调分析人类情绪，当检测到用户疲惫时会自动调整动作幅度和说话音量；在工厂场景中，能根据流水线速度自主调整零件抓取频率。云端同步记忆：采用可移动记忆技术，让机器人的操作经验和用户偏好能在不同设备间同步。即使某台 Optimus 损坏，更换新机体后仍能保留原有记忆。这种斯拉 AI 负责物理行动+xAI Grok 负责逻辑推理的混合架构，实现了本地实时响应与云端复杂计算的完美平衡。

6.2. Figure AI

2025 年 2 月，Figure AI 宣布放弃 OpenAI 大模型，自主研发 Helix 模型。 Helix 模型是全球首个能够对整个人形机器人上半身进行高频率、连续控制的视觉 -语言-动作（VLA）模型，其核心优势在于实现了"感知-理解-决策-执行"的端到端闭环，彻底摆脱了传统机器人对预设脚本的依赖。多模态融合能力。Helix 模型整合了视觉、语言、触觉等多种感知模态，能够像人类一样看懂环境、听懂指令、感知物体。在视觉层面，它能通过摄像头实时构建三维环境地图，识别物体位置、形状及状态；在语言层面，支持自然语言指令理解，可准确解读“把餐具放进洗碗机”、“整理桌面”等复杂任务；在触觉层面，能将传感器数据转化为对物体属性的认知，为操作决策提供依据。 2025 年 9 月的演示中，Figure 机器人在 Helix 模型的控制下，完成了装载洗碗机的任务。这一过程中，机器人需要通过视觉识别餐具类型和位置，通过语言理解任务要求，通过触觉感知餐具材质和重量，三种模态数据实时融合，最终生成流畅的操作动作。更关键的是，这一能力是在没有新算法和专门工程化处理的情况下，仅通过新增数据实现的。

多机器人协同能力。Helix 模型的另一大突破是支持多机器人协同运行，这为人形机器人的规模化应用奠定了基础。在宝马斯帕坦堡工厂，多台 Figure02 机器人依托 Helix 模型组成自主舰队，能够自主分配任务、协同完成零件搬运和设备巡检工作，较单台机器人作业效率提升 4 倍以上。这种协同能力并非简单的任务分配，而是通过实时数据共享实现的动态协作——当某台机器人遇到障碍时，会自动将任务分配给附近空闲的机器人，确保整个生产流程不受影响。快速技能迁移能力。传统机器人需要针对不同任务进行单独编程，而 Helix 模型具备强大的技能迁移能力，能够将在某一场景习得的技能快速应用到新场景。2025 年 8 月， Figure AI 展示了令人震惊的技能迁移案例：原本在物流场景从事分拣工作的机器人，在仅增加叠衣服数据、未改变任何硬件和算法架构的情况下，轻松掌握了叠衣服的技能；一个月后，同一台机器人又学会了装载洗碗机。这种跨场景技能迁移能力，大幅降低了机器人适应新任务的成本，使其能够快速响应不同行业的需求。数据驱动的进化逻辑。Helix 模型的强大能力，源于 FigureAI 构建的数据飞轮体系。公司与 Brookfield 资产管理公司的合作，为其提供了全球最大且最多元化的真实场景人形机器人预训练数据集——Brookfield 旗下的物流仓库、商业建筑、制造工厂等场景，成为 Helix 模型的训练场，每天产生数百万条真实任务数据。这些数据通过 BotQ 工厂的自动化系统实时回传至 Figure AI 的训练平台，经过清洗、标注后用于 Helix 模型的迭代优化。优化后的模型又被部署到机器人上，在真实场景中完成更复杂的任务，产生更多高质量数据，形成数据采集-模型训练-场景应用的闭环。这种数据飞轮效应，使得 Helix 模型的能力呈指数级增长，也让 Figure 机器人的任务成功率从初代的不足 50%提升至 Figure 03 的 98%以上。

6.3. Physical Intelligence

Physical Intelligence 成立于 2024 年 3 月，总部位于美国旧金山，创始团队包括来自 Google、Stanford、UC Berkeley 等知名机构的人工智能与机器人科学家。公司聚焦通用家用机器人，利用通用人工智能（AGI）应对多种不同家务场景。公司一直在开发机器人基础模型，可以推广到各种各样的环境中。公司最新的π0.5 建立在其视觉-语言-行动（VLA）模型π0 的基础上，进步很大，可以指挥机器人清理训练数据中没有看到的新家的厨房或卧室。 π0.5 背后的主要原则是异构数据的协同训练。通过在各种不同的数据源上训练，可以教模型如何物理上执行不同的技能，还可以教它如何理解每个技能的语义上下文（例如，如果任务是打扫厨房，哪些物品适合捡起和收起，以及将它们放在哪里），推断任务的高级结构（例如，铺床所需的步骤），甚至从其他机器人那里转移物理行为。公司估值 24 亿美元。在 2024 年 11 月，公司大模型π0 产品公布后数天，Physical Intelligence 宣布获得 4 亿美元融资，累计融资 4.7 亿美元，投后估值达 24 亿美元。领投方为亚马逊创始人 Jeff Bezos 和 OpenAI 等。据硅谷科技媒体 The Information 9 月 10 日报道，知名具身智能模型软件公司 Physical Intelligence 正在以 50 亿美元的估值洽谈新融资。

6.4. Skild AI

Skild AI 成立于 2023 年，总部位于美国匹兹堡，聚焦开发适合不同形态具身智能的 AI 大模型。Skild AI 由两位卡内基梅隆大学的教授 Pathak 和 Gupta 在 2023 年共同成立。两人分别从伯克利和马里兰大学取得博士学位，且都在人工智能和机器人领域有深厚的学术研究经历和贡献，提出了诸如自监督机器人、好奇心驱动 AI 训练和自适应机器人学习等理论。 Skild AI 模型的训练逻辑类似于 AI 大语言模型的训练逻辑，Skild AI 向模型输入巨大体量的高质量机器人动作数据，让模型最终具备一定程度的通用智能，能够无需针对新环境重新训练便能顺利实现部署。 Skild AI 更专注于软件模型的开发而非机器人本体的制造。现阶段看，他们的商业模式更接近于成为人形机器人的上游核心技术供应商，赋能更多中游的机器人制造企业打造更好的产品。软硬分离的策略，也使其价值创造不局限在人形机器人，传统机械臂、运输机器人、四足机器人、一般扫地机器人也都可以搭载 Skild 大脑。机器人能够理解自身的状况和功能，以及不同的环境和场景，在设计功能之外拓展更多应用场景。估值已达 45 亿美元。Skild AI 在 2024 年 7 月收获 3 亿美元 A 轮融资，估值达 15 亿美元，累计融资达 5.5 亿美元，领投方为 Lightspeed Venture Partners、Coatue、 SoftBank 等。资金将用于团队扩充和通用模型开发。据彭博社 2025 年 6 月 12 日报道，芯片设计公司英伟达与消费电子制造商三星电子已计划对人工智能机器人软件初创公司 Skild AI 进行投资。此举被视为两家公司在机器人领域持续布局的一部分。交易完成后，两家公司将持有 Skild AI 的少数股权。此轮融资后，Skild AI 的估值约为 45 亿美元。

6.5. 通研院

北京通用人工智能研究院是 AI 国家队。其是在北京市委市政府的指导和支持下，由北京市科委推动成立的非营利性世界一流新型研发机构。2020 年 9 月，朱松纯教授以人工智能战略科学家的身份回国创建北京通用人工智能研究院，并担任院长。在北京市、科技部、教育部共同扶持下，与北京大学、清华大学等优势单位开展广泛合作，共同致力于在通用人工智能领域开展战略性、前瞻性、基础性科技创新，聚力打造具备人类核心认知能力的通用智能体，是建设北京国际科创中心的一支重要力量。 2025 年，在中关村论坛上，通研院正式推出“通智大脑”全栈式具身智能底座。“通智大脑”是通研院自主研发的通用具身机器人大脑，基于全球首个通用智能人“通通” 的核心技术，深度集成遥操作、视觉感知、导航定位、灵巧操作与任务规划等核心技术，构建了贯通感知—理解—决策—执行的具身智能体框架。同时，通研院联合乐聚、宇树等企业共同发起成立“通智大脑联盟”，聚焦垂直领域的“通智大脑”与具身本体的协同研发与应用，加速关键技术突破与产业化落地。和宇树合作提供大脑。2024 年 6 月 27 日，通研院与宇树科技签署合作协议，共建具身智能与人形机器人联合实验室，通研院常务副院长董乐、宇树科技联合创始人陈立共同为实验室揭牌。 2025 年 9 月 24 日，品茗科技控股股东、实际控制人莫绪军、股东李军、陶李义、李继刚及新余灵顺灵创业投资合伙企业（有限合伙）与通智清研（北京）科技产业发展合伙企业（有限合伙）共同签署了《关于品茗科技股份有限公司股份转让协议》，转让方合计向受让方转让其持有的上市公司无限售流通股 12,552,212 股，占上市公司股份总数的 15.9206%。通智清研执行事务合伙人为通智人工智能科技（北京）有限公司和嘉兴通清智研私募基金管理有限公司，通智清研的实际控制人为通智人工智能科技（北京）有限公司，通智人工智能科技（北京）有限公司系北京通用人工智能研究院持股 100%的企业。

6.6. 银河通用

银河通用是市场领先的具身多模态大模型通用机器人企业。成立于 2023 年 5 月，银河通用致力于为全球用户提供通用机器人产品，并已率先在商业、工业、医疗等场景中广为应用。银河通用选择以合成数据驱动的具身大模型研发。在大多数机器人公司仍依赖真实环境数据采集时，银河通用已经通过仿真合成数据训练机器人。银河通用合成数据在整个训练数据中的占比高达 99%以上，这使得银河通用能够以极低边际成本快速生成大量多场景适应的训练数据。公司自主研发的仿真数据生成管线，可以批量生成高多样性、多场景适应的合成数据，解决了传统真实数据采集成本高昂、场景适应性差的问题。银河通用提出了“三层级大模型系统”，包括硬件层、技能层和顶层大模型。通过这一创新架构，机器人能够理解人类语言指令并自主完成任务规划与执行。在数据层面，公司自研合成了几千万级的场景数据以及数十亿级的抓取和导航数据，使机器人实现了跨场景、跨物体材质等方面的泛化抓取，成功率高达 95%。 2025 年，银河通用发布了端到端具身大模型 GraspVLA。训练数据达到十亿帧“视觉—语言—动作”的规模，涵盖了广泛的抓取和移动任务。该模型在未见过的真实场景中实现了零样本测试，展现出卓越的泛化能力。根据 AI 科技评论数据，截至 2025 年 6 月，银河通用估值为 115 亿元。

6.7. 智元机器人

智元机器人致力以 AI+机器人融合创新，打造全球领先的通用具身机器人产品及应用生态。公司成立于 2023 年 2 月，由全球著名企业核心高管、人工智能领域顶尖科学家等资深产业人士共同创立。2025 年 1 月，智元机器人第 1000 台通用具身机器人正式量产下线。 2025 年 3 月 10 日，智元发布首个通用具身基座模型——智元启元大模型（Genie Operator-1）。它提出了 Vision-Language-Latent-Action (ViLLA) 架构，该架构由 VLM(多模态大模型) + MoE(混合专家)组成，其中 VLM 借助海量互联网图文数据获得通用场景感知和语言理解能力，MoE 中的 Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力，MoE 中的 Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力，三者环环相扣，实现了可以利用人类视频学习，完成小样本快速泛化，降低了具身智能门槛，并成功部署到智元多款机器人本体，持续进化，将具身智能推上了一个新台阶。

6.8. 星动纪元

公司成立于 2023 年 8 月，星动纪元由清华大学交叉信息研究院孵化而来，以构建 “原生通用具身智能体”为目标，专注于人形机器人核心技术研发。 2025 年 7 月，星动纪元推出了首个同时能实现“大运动+巧操作”的全尺寸双足人形机器人——星动 L7，它也是国内首个由 VLA 大模型驱动、具备全身 55 个自由度的双足人形机器人。其核心驱动力来自于星动纪元自研的端到端 VLA 具身大模型 ERA-42。基于此模型，机器人拥有了“智慧大脑”，通过观看人类操作视频即可直接学习新技能，大幅降低数据成本，能够快速切入全新场景，实现从 0 到 1 的技能学习与应用。

6.9. 星海图

星海图（北京）人工智能科技有限公司成立于 2023 年 9 月，是一家专注于具身智能基础模型及具身智能机器人研发的人工智能公司。公司坚持 AI 算法与本体协同研发的发展思路。从技术的边界和场景的需求出发定义本体形态，自主设计并制造本体，实现从核心模组、具身本体、数据、端到端基础模型及场景解决方案全栈自研，并基于每一代的智能体产品探寻具身智能的 Scaling Law，以此迈向通用具身智能的星辰大海。在具身基础模型的研发上，星海图围绕具身智能的快-慢双系统模型架构 EFM-1 （Embodied Foundation Model-1），融合“慢思考”的数百亿参数视觉语言大模型（VLM）与“快执行”的数十亿参数动作大模型（VLA），实现从感知理解到精确控制的闭环决策。其中，VLA 模型基于全球最大规模的星海图单本体真机数据集进行训练，聚焦突破具身智能在动作与对象泛化上的核心瓶颈。星海图 CEO 高继扬负责感知算法。其拥有清华电子工程本科、南加州大学计算机视觉博士学历，曾在 Waymo 参与自动驾驶汽车的“大脑”VectorNet 等核心算法的研发，是业界少数从自动驾驶迁移到具身智能的算法专家之一。

6.10. 自变量机器人

自变量机器人科技有限公司(X Square Robot)成立于 2023 年 12 月，聚焦自研“通用具身智能大模型”，以真实世界数据为主要数据来源，构建具备精细操作能力的通用机器人，是国内最早采用完全端到端路径实现通用具身智能大模型的公司之一。公司自研的「GreatWall」操作大模型系列的 WALL-A，具备自主感知、决策与高精度操作能力，已在多个维度达到全球领先。创始人王潜曾在美国顶尖机器人实验室研究机器人学习和人机交互，研究经历涵盖机器人操作和家庭服务机器人相关的领域。同时，公司坚持软硬一体同步迭代，自主研发并持续优化适配多模态大模型控制的机器人本体，更好地满足开放环境中的精细操作和稳定运行需求。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）