2025年具身智能行业深度：技术路线、市场机遇、产业链及相关公司深度梳理

慧博智能投研2025/05/27
举报

一、行业概述

1、具身智能：人工智能+机器人等物理实体

具身智能（Embodied Artificial Intelligence,EAI）是指有物理载体的智能体，在与物理世界的交互过程中，通过感知、控制和自主学习来积累知识和技能，形成智能并影响物理世界的能力。具身智能的实现方式多种多样，可以根据具体任务和环境需求选择合适的智能实体形态，其中人形机器人作为具身智能的典型代表，被视为实现具身智能的最佳载体之一。

2、四大核心要素及应用体现

具身智能由四个核心要素组成：本体、智能体、数据和学习进化框架。具身智能指的是那些能够感知周围环境、进行智能交流以及规划行动的智能系统。从机器人的角度出发，具身智能在机器人上的应用体现可以划分为三阶段：感知、推理、执行。

（1）具身感知

机器人需要具备环境感知能力，依据感知对象的不同，可以分为四类：物体感知、场景感知、行为感知、表达感知。

（2）具身推理

具身感知的过程主要包括以下几步：任务规划、导航、具身问答。任务规划：任务规划（Task Planning）是具身智能的核心任务之一，将抽象的非可执行人类指令转换为具体的可执行技能。这一步骤的完成需要两步：1）将人类指令分解为机器人可执行的技能，2）执行技能。结合大模型的任务规划：大模型作为转换器、大模型作为分解器。作为转换器：LLM+P，用 LLM 将状态信息描述成 PDDL 语言再进行规划，取代以往需要人工针对实际问题书写 PDDL 语言对任务进行建模；作为规划器：可以 zero-shot 进行任务规划。

具身导航（Embodied Navigation）：智能体在 3D 环境中移动完成导航目标。早期的具身导航，通过构建一系列基于规则的组件和算法，实现有效的环境感知、定位、路径规划和避障。而基于学习的导航则利用深度学习与强化学习技术，提高模型对复杂环境和新场景的泛化能力。不同于传统算法依赖预定义的规则和手工设计的特征，基于学习的导航算法从大量数据中学习环境特征和导航策略，实现强自适应性和高灵活性。视觉导航：基于学习的导航的一个重要分支，它依靠计算机视觉来理解环境信息并做出导航决策。视觉语言导航：通过自然语言指令和视觉图像进行导航的任务，其目标是开发一种能够与人类进行自然语言交流并在现实 3D 环境中导航的具身智能体。1）大模型出现之前：主要通过 RNN，LSTM，Transformer 等网络来提取命令中的语义信息；2）大模型出现后：利用大模型作为辅助来帮助规划器输出规划或者大模型直接作为规划器来输出规划。

具身问答：机器人需要主动探索环境，定位目标物体或位置获取环境中的信息，然后基于获取的信息回答问题。该任务可视为导航、VQA 任务的结合。相比于 VQA 等已有问答任务，具身问答的特点在于机器人具有主动行动能力。

（3）具身执行

具身执行，就是把任务具体执行出来，其中最重要的环节就是技能学习。技能学习：以技能描述、环境观察为输入，输出完成技能所需的 7Dof 轨迹（主要指人手腕或者机械臂末端执行器的位置、朝向、末端状态）。技能学习主要有两类方法：模仿学习：收集专家演示数据，用神经网络拟合。强化学习：设计奖励函数，机器人通过交互学习行为策略。两者的差别在于：模仿学习是从样例中学习，机器人学习过程中不与环境进行交互；而强化学习从交互中学习，机器人学习过程中与环境进行交互。

3、具身智能产业发展历程

具身智能经历 5 个发展阶段，正步入应用阶段；1950-1980 年，为具身智能概念萌芽阶段，图灵在其论文中提出了人工智能可能的发展方向，为具身智能的概念奠定了基础。1980-1990 年，为早期探索与理论发展，罗德尼·布鲁克斯和罗尔夫·普费弗等人的研究为具身智能提供了重要理论支撑。2000- 2010 年，为跨学科融合与技术突破阶段，具身智能研究开始融合跨学科的方法和技术，如机构学、机器学习、机器人学等，形成了相对完整的学科分支。2011-2020 年，深度学习技术的快速发展为其注入了新的发展动力。2021 年至今，为产业应用阶段。具身智能受到科技界和产业界的广泛关注，众多科技巨头及高等学府纷纷投入相关研究。如今，具身智能作为人工智能的重要分支，正逐步走向产业应用，推动专用机器人向通用机器人发展。

二、驱动因素

具身智能机器人是我国发展新质生产力的未来产业新赛道，集成了 AI、先进制造、新材料等先进技术，将对社会产业变革和全球竞争格局产生颠覆性影响。无处不在的应用潜力预示着庞大的市场需求、国家与地方长期的政策规划支持、核心零部件供应链完善形成集群效应、以及健康良好的人才和创业生态，多方面因素推动我国成为具身智能技术发展的沃土。当前，国内的高校院所、科技大厂、初创企业均在布局以 AI 大模型和人形机器人为代表的前沿领域，我国在具身智能领域已经走在国际前列。

1、政策持续加码，“具身智能”首次出现在政府工作报告中

政府工作报告首提具身智能：2025 年 3 月 5 日，十四届人大三次会议开幕，国务院总理李强作政府工作报告。在《2025 年政府工作报告》中提到，建立未来产业投入增长机制，培育生物制造、量子科技、具身智能、6G 等未来产业。同时还提到，大力发展智能网联新能源汽车、人工智能手机和电脑、智能机器人等新一代智能终端以及智能制造装备。具身智能和智能机器人是首次出现在《政府工作报告》当中。

2、地方政府出台政策并成立产业创新中心

2023 年 11 月，工信部发布《人形机器人创新发展指导意见》，提出到 2025 年，人形机器人创新体系初步建立；到 2027 年，综合实力达到世界先进水平，成为重要的经济增长新引擎。 2024 年 1 月，《工业和信息化部等七部门关于推动未来产业创新发展的实施意见》中，提出要突破人形机器人等高端装备产品。突破机器人高转矩密度伺服电机、高动态运动规划与控制、仿生感知与认知、智能灵巧手、电子皮肤等核心技术，重点推进智能制造、家庭服务、特殊环境作业等领域产品的研制及应用。多地开始打造人形机器人产业创新中心，推动具身智能基础模型、仿真应用等发展。

具身智能是上海“模塑申城”方案五大关键领域之一。2024 年 5 月，国家地方共建人形机器人创新中心落地上海。在不到一年的时间里，已发布了全球首台全尺寸人形机器人公版机“青龙”，建立了 OpenLoong 人形机器人开源社区，联合 15 家企业构建了“十八金刚”人形机器人阵列，围绕人形机器人场景应用、具身智能分级分类等领域，制定了全国首批团体标准，开设了全国首个异构人形机器人训练场。同时，上海正在实施“模塑申城”方案，重点在智能终端、科学智能、在线新经济、自动驾驶、具身智能等五大关键领域，对制造、金融、教育、医疗、文旅、城市治理等六大重点行业开展供需联合攻关，以超级场景牵引应用迭代。

三、行业现状及规模预测

1、全球具身智能提速发展，科技巨头布局具身智能生态

全球主要经济体均高度重视具身智能的发展，不断提升细分领域关注度。

具身智能技术不断创新，国内外知名企业积极布局。具身智能在各大企业的推动下正快速发展，技术不断创新，应用场景日益广泛。从软硬件解耦技术到人形机器人的研发与应用，再到与大模型的深度融合，具身智能正逐步成为人工智能领域的重要分支。特斯拉、谷歌、英伟达、Figureone、宇树科技、智元、小米、优必选、华为、科大讯飞等国内外多家知名企业均在具身智能领域积极布局，并已取得显著进展。

技术发展一脉相承，车企加速部署人形机器人。自动驾驶是具身智能的一个重要场景，都具备“感知决策-规划-控制”的算法架构，具身智能和自动驾驶在技术实现路径上是一脉相承的，且算法与零部件可实现高度复用，这是 Tesla 给业界带来的启示。当下，智能辅助驾驶已经跑通商业化路径，进入卷交付、卷规模、卷性价比的阶段，这为具身智能未来的技术打磨路径和商业化提供了一些参考。同时，汽车行业从主机厂到供应商，从投资人到创业者，都在从自动驾驶转向追求更多场景的具身智能：主机厂或自研或投资具身智能公司，而人形机器人企业也在寻求机器人“进场打工”的机会。

2、2024 年迎来具身智能投资热

如果说 OpenAI 的 ChatGPT 引爆了 2023 年对大语言模型的投资热潮，那么 Tesla 入局人形机器人和黄仁勋的“AI 的下一个浪潮是具身智能”，则彻底带火了具身智能与人形机器人领域的投资热潮，成为 2024 年科技产业投资的最大热点。

从投资角度看，头部人形机器人的本体研发集成厂商已经历多轮融资，估值较高，行业整体投资热点正从人形机器人本体向具身智能模型和其他上游零部件迁移。

3、市场规模预测

自动驾驶载具和机器人构成两大主要载体，根据 36 氪测算，国内具身智能行业规模 2027 年有望突破 1.25 万亿元，2018-2027 年 CAGR 达 17.6%。

四、具身智能技术路线

具身智能系统通过“大脑”（感知、理解和规划，基于大语言和视觉语言模型）、“小脑”（运动控制和动作生成，基于运动控制算法和反馈控制系统）和“身体”（动作执行，由机器人本体支持）三个层级协同工作。

1、算法：大模型是现阶段“大脑”的最佳解决方案

让机器人“大脑”实现突破最核心的推动力是大模型实现涌现、成为真正的生产力。大模型的能力与机器人的需求十分契合，只需要告诉机器人它要做的任务是什么，机器人就会理解需要做的事情，拆分任务动作，生成应用层控制指令，并根据任务过程反馈修正动作，最终完成人类交给的任务，整个过程基本不需要或者仅需少量人类的介入和确认，基本实现了机器人自主化运行，无需掌握机器人专业操作知识的机器人应用工程师介入。

目前，具身大模型可以分为两大流派。一类是端到端大模型，一类是分层具身大模型。从人体“大脑-小脑-肢体”的架构来看，分层大模型通过不同层次模型协作，利用底层硬件层和中间响应快的小模型弥补上层大语言模型的不足，推动机器人在实际场景的应用，并越来越多地采用基于学习的控制方法。 VLA 等端到端模型能够直接实现从人类指令到机械臂执行，即输入图像及文本指令，输出夹爪末端动作。分层式路线一度是主流选择，因为端到端路线受数据制约难以达到性能要求；机器人数据正在逐步积累，端到端路线在未来可能成为主流。

（1）端到端大模型

端到端大模型可实现直接端到端地从人类指令到机械臂执行，即输入是图像及文本指令，输出是夹爪末端动作。以谷歌的 RT-1 到 RT-2 的进化迭代为例：谷歌 RT-1——关注泛化能力：2022 年，谷歌机器人研究团队历时 17 个月基于 13 个机器人得到了 130k episodes 以及超过 700 个任务的数据，在该数据集的基础之上，基于模仿学习中行为克隆学习范式，把 Transformer 应用机器人的操纵任务上，提出了 RT-1 模型。RT-1 的输入由图片序列、自然语言指令构成，输出由机械臂运动的目标位姿(Toll,pitchgaw,gripper stαtus)、基座的运动、模式转换指令构成。谷歌 RT-2——获得涌现能力：2023 年，Google 的 DeepMind 团队基于互联网上数据训练视觉-语言模型(VLM)，使其能够学习到更多关于视觉和语言之间映射关系的知识后，在机器人操纵任务上微调，提出了 RT-2。RT-2 的目标是训练一个学习机器人观测到动作的端到端模型，且能够利用大规模预训练视觉语言模型的益处，经测评，这类学习方法产生的 Vision-Language-Action(VLA)模型获得了涌现能力。

端到端大模型 2.0 阶段：VLA。以谷歌 RT-2 发布为标志，VLA 模型正式进入人们的视野中并快速发展。VLA 模型是在视觉语言模型（VLM）的基础上发展而来的。在 VLM 基础上，它还利用了机器人或汽车运动轨迹的数据，进一步训练这些现有的 VLM，以输出可用于机器人或汽车控制的动作序列。通过这种方式，VLA 可以解释复杂的指令并在物理世界中执行相应的动作。

端到端大模型的主要优缺点：优点（以 VLA 为例）：1）端到端架构：VLA 是一个端到端的大模型，这意味着它可以简化传统上需要多个独立模块才能完成的任务流程。这不仅可以提高系统的效率，还能增强其灵活性和适应性。2）泛化能力：VLA 具有强大的泛化能力。以谷歌 DeepMind 推出的 RT-2 为例，该模型可以在新的物体、背景和环境中表现出显著改善的性能。它可以理解并响应那些在训练数据集中未曾出现过的命令，并基于底层语言模型提供的思路链进行推理，从而做出合理的决策。3）通用性：VLA 具备高度的通用性。由于它是建立在一个通用的大规模预训练基础上，因此理论上几乎所有的 “智能机器设备”都可以使用这套算法。无论是汽车、飞行器还是其他类型的机器人，只需要经过适当的微调就能满足特定应用场景的需求。

缺点：1）数据来源非常有限：谷歌在 MountainVillage（美国加州）办公室的厨房里采集了 17 个月，得到 13 万条数据，使得其机器人在谷歌的厨房里表现可以非常好。但一旦出了这个厨房，需要考察其环境泛化性，它的成功率就从 97%骤降到 30%左右。并且这种泛化是有选择的泛化，不是将其直接放到施工工地、非常嘈杂的后厨等场景中。2）推理、响应速度仍有待提升：RT-2 大模型中包含了谷歌上一代大模型 PaLM-E，它的速度只能达到 1～3Hz，对应机器人的反射弧长达 0.3 秒甚至 1 秒。

（2）分层端到端大模型

分层决策模型通过将感知、规划决策、控制和执行各模块分解为多个层级，分别突破“大脑”和“小脑”，利用不同的神经网络进行训练，最终再整合起来。一个典型案例如 Figure02。Figure02 采用三层级方案：1）顶层集成了 OpenAI 的大模型，负责视觉推理和语言理解；2）中间层是神经网络策略（NNP），负责快速、灵巧的操作，将视觉信息直接转换为动作指令，并输出这些指令；3）底层是全身控制器，负责提供稳定的基础控制，在接收 NNP 的动作指令后，输出各关节的扭矩指令。另一典例如银河通用的三层级大模型方案。1）底层是硬件层，2）中间层是通过仿真合成数据不用任何真实世界数据训练的泛化的技能，3）最上层是大模型，可以调度中间技能 API，来实现完整的从任务的感知、规划到执行的全流程。

分层模型中，大模型为“大脑”。在分层端到端模型方案中，机器人的四大板块（感知、规划决策、控制和执行），逐渐被类人化地划分为负责解决高层次认知或决策问题（highlevel）的“大脑”，以及负责基础层面的功能性问题（lowlevel）的“小脑”。两大系统各司其职又互相合作，“大脑”负责解析任务需求，整合来自传感器的信息，进行任务的细化和策略规划；“小脑”则专注于精细的运动控制，确保在“大脑” 制定的策略指导下，机器人能够准确无误地执行动作并进行必要的调整。目前较为普遍的方向是，机器人的“大脑”由大模型来担任，“小脑”则依然为底层控制算法。大脑：负责 highlevel 的感知和规划决策系统，是多模态大模型。基于多模态大模型，机器人能学习、理解、融合和对齐各传感器采集而来的跨模态信息，实现对复杂环境的鲁棒建模与更精准、通用的感知，并根据环境情况，自主拆解任务、规划动作。目前基于大模型的“大脑”技术路线正处在并行探索阶段，并逐渐向端到端的大模型演进。现阶段主要是 4 条技术路线：1）LLM（大语言模型）+VFM（视觉基础模型）：实现人机语言交互、任务理解、推理和规划，目前最为成熟。主要代表是谷歌的 SayCan 模型。2）VLM（视觉-语言模型）：弥合语言与视觉理解间的差距，实现更准确的任务规划和决策，主要代表是清华大学的 CoPa 模型，利用嵌入在基础模型（比如视觉语言模型的代表 GPT-4V）中的常识知识为开放世界机器人操控生成一系列的自由度末端执行器姿势，生成的操控任务分为任务导向抓取和感知运动规划。3）VLA（视觉-语言-动作模型）：在 VLM 基础上增加运动控制，解决机器人运动轨迹决策问题。主要代表是谷歌 RT-H 模型，学习语言和运动，并使用视觉上下文，通过利用语言-视觉-动作结合的多任务数据集学习更强大和灵活的动作策略。4）多模态大模型：实现对物理世界环境的全面感知，是未来的主要研究方向。主要代表是麻省理工、IBM 等共同研究的 MultiPLY 模型，将视觉、触觉、语音等 3D 环境的各类特征作为输入，以形成场景外观的初步印象，并通过多视图关联将印象中的输出融合到 3D，最终得到以对象为中心的场景特征。 “小脑”：加载人工智能技术，运动方式更加拟人。“小脑”的运动规划与控制是人形机器人实现自然和流畅动作的关键。目前，“小脑”运动控制包括基于模型的控制方法和基于学习的控制方式两个大类。传统的基于模型的控制方法：通过建立机器人的运动学和动力学模型，进行运动轨迹规划和平衡控制。这一类方法的特点是身体控制稳健，但步频较慢，且整体开发较为复杂，成本高，不利于产品快速迭代。基于模型的控制方法具体包括 ZMP 判据及预观控制、混杂零动态规划方法、虚拟模型解耦控制、模型预测控制+全身控制（MPC+WBC）等。基于学习的控制方法：使用端到端的人工智能技术，代替复杂的运动学模型，大幅度降低了“小脑”开发难度、提升了迭代速度，一般通过人类示教或自主学习建立运动执行策略，其中通过人类示教的方式也称为模仿学习，效果依赖高质量示范数据；通过自主学习的方式也称为强化学习（Reinforcement Learning，RL），指通过精心设计学习目标，机器人不断在环境中探索逐渐发现最大化奖励的方式学习到最优的执行策略，效果依赖于仿真环境。

通往 One-Model 端到端大模型是个循序渐进的过程。根据智元机器人定义的路线图，当前具身智能大脑已经具备认知、推理、规划的能力，且而小脑层面机器人技能任务的训练也是通过深度学习以驱动的。随着场景、数据的增多，多个特定小模型会逐渐泛化为通用操作大模型，并最终实现与上层模型的融合。

2、训练及数据采集：采集方式不断进化

当前的具身智能是通过深度学习技术（模仿学习、强化学习等）从大量数据中学习并实现的，巨量的、优质的、多样的数据，是具身智能机器人能够实现各种各样自主操作的基础。数据采集方式呈现多元化，远程操作、机器人自主探索、仿真合成数据等方式各有优劣，为具身智能训练数据集添砖加瓦。自动驾驶的数据采集方式具备借鉴意义：在规模化部署以后，机器人在影子模式下自主探索，通过与环境互动收集多元数据，在云端形成数据闭环，再反哺模型的调整与训练，这也是具身感知、学习的具体表现。

（1）远程操作

远程操作，即由实验人员操作机械手柄，远程控制机器人做出相同动作，以此来积累数据。近期的研究通过多个操作员协作收集了大规模多样化的数据集，结果表明，基于这些数据集训练的机器人表现出色，甚至能够在不同环境中泛化。然而，数据采集是这一方法更广泛应用的主要瓶颈。在单臂机器人任务中，数据采集通常需要多个操作员、机器人以及数月的人力投入。针对类人机器人的数据采集则更具挑战性，因为同时控制多只手臂和多指灵巧手的复杂性较高。为了实现类人机器人的实时远程操作，研究人员开发了专门的远程操作界面，但这些界面的成本高昂，难以实现规模化。类人机器人的任务复杂性也更高，因此数据需求更大，但由于操作员需同时控制多臂和多指手，工作负担大幅增加，数据采集也更加困难。

（2）仿真

所谓仿真，即通过海量算力进行模拟运算，计算得出海量机器人训练数据集。仿真可能是目前最有可能做到规模化数据生成的路径，不过其背后需要巨大的算力支持。 2024 年 11 月，来自英伟达、UT Austin 和 UCSD 的研究人员推出了一种大规模自动化数据生成系统— —DexMimicGen。它可基于少量人类演示合成类人机器人的灵巧手运动轨迹，帮助实现在更少人工干预下扩大类人数据的采集。DexMimicGen 的核心思想是利用一小组人类演示，并通过在物理仿真中进行演示转换和重放，自动生成大量适用于双手灵巧操作场景中模仿学习的训练数据。例如，从仅 5 个源人类演示开始，DexMimicGen 可以生成 1000 个双手灵巧任务的演示。研究团队从 60 个源人类演示中总共生成了 21000 个演示，涵盖了 9 种不同的任务。研究团队发现，相较仅依赖源演示，DexMimicGen大幅提升了策略成功率，所有任务中基于 DexMimicGen 数据集训练的机器人表现明显优于仅基于少量源数据训练的机器人。且随着 DexMimicGen 数据量的增加，策略的性能也随之提升。

（3）AR

在一项名为《Explainable Human-Robot Training and Cooperation with Augmented Reality》的研究中，研究人员通过 AR（增强现实）技术让人机交互过程具备更强的可解释性，从而进行数据积累。 2024 年 10 月，斯坦福李飞飞团队发表论文《ARCap：Collecting High-quality Human Demonstrations for Robot Learning with Augmented Reality Feedback》，提出了 ARCap 系统。 ARCap 是一种便携式数据收集系统，它通过增强现实（AR）和触觉警告提供视觉反馈，以指导用户收集高质量的演示。ARCap 使新手用户能够收集与机器人运动学相匹配的机器人可执行数据，并避免与场景发生碰撞。利用从 ARCap 收集的数据，机器人可以执行具有挑战性的任务，例如在杂乱的环境中进行操作和长视野跨具身操作。ARCap 完全开源且易于标定；所有组件均由现成的产品构建。

（4）视频学习

视频学习，即通过多模态大模型，直接让机器人通过视频学习人类动作，从而积累训练数据。考虑到直接学习人类操作、人类远程操控等方式的示教成本较高，“从人类视频中学习”已成为机器人的主流训练方法之一，如直接通过 YouTube 视频进行策略学习。但视频学习同样有自己难以解决的问题：1）控制上：不同于以往的示教方法（如遥操作示教及拖动示教），视频示教没有提供机器人本体的 motion 数据，agent 需要仅根据演示视频生成 action。2）感知方面，让机器人理解人类演示视频也具有很大挑战，机器人与人类的视角不同，并且人类演示视频中，每一帧是人手臂的运动图像，而机器人捕获的图像是机械臂的运动图像，这些原因导致了演示视频与机器人感知的图像之间存在 gap。

3、主要厂商的做法

（1）宇树机器人

2024 年 12 月，宇树开源了一系列数据采集工具和数据集。数据采集工具包括但不限于：1）针对开源机器人系统 R(obot)OS 推出的模拟包，包含宇树系列机器人的质量、惯量、力矩等参数；2）使用苹果 Vision Pro 对 G1 进行遥操作控制的仓库，可以用于数据采集；3）RL GYM，用于机器人仿真训练，之前开源了英伟达 Issac Gym 平台上的训练代码，这次新增了对 MuJoCo 模拟仿真的支持。数据集：包含五种操作，使用配备有三指灵巧手的宇树 G1 人形机器人收集，每张图分辨率为 640×480，每个手臂和灵巧手的状态和动作维度为 7，可使机器人完成拧瓶盖倒水、叠放积木等操作。在数据采集环节，宇树运用了苹果 Vision Pro 进行 G1 的遥操作控制，该数据集采用 640x480 分辨率的图像，并记录了机器人手臂和灵巧手的七维状态和动作数据。

（2）特斯拉

特斯拉在 AI 系统训练中采取的是以真实数据为驱动的策略。为训练 Optimus 机器人执行类人动作，特斯拉大量招募“数据收集操作员”，要求其穿戴动作捕捉服、VR 头显等设备，模拟机器人需完成的动作（如行走、搬运物品）。Optimus 的核心亮点之一在于其利用动作捕捉技术，以及 VR 和 AR 技术的融合应用，以实现更为真实的人类动作模拟。

（3）波士顿动力

以波士顿动力的 Atlas 人形机器人为例，Atlas 依靠其视觉系统进行任务排序的推理，低层控制器进行行动规划。而不管是“大脑”视觉系统还是“小脑”控制系统，都离不开数据训练。 Atlas 的训练过程融合了多个数据来源，包括真实工厂部署数据、实验室测试数据以及仿真环境中的模拟数据。通过对这些数据进行强化学习，不断训练、调优规控算法，Atlas 能够逐步掌握类似人类的精细操作技能。

（4）Figure AI

Figure AI 创建于 2022 年，相较于国内外几家知名机器人公司成立时间较晚，侧重于研究具身人工智能发展。 Figure AI 基于端到端运动控制算法，结合 OpenAI 的 GPT，先于特斯拉公开展示了人形机器人在无需预设程序的情况下的高度自主性和智能化交互，形成模型训练-云端设施-车厂落地的闭环。

近期，结束与 OpenAI 的合作后，Figure AI 实现将首个自研具身模型 Helix 装入机器人 Figure。预告中展示了通过通用的“视觉-语言-感知”（VLA）模型 Helix 训练机器人，将感知、语言理解和学习控制统一起来，展示出较大的多机协作与强大的泛化功能。其原理包括双系统建构、端到端训练、解耦架构、优化推理部署。

Helix 是一个通用的“视觉-语言-感知”（VLA）模型，将感知、语言理解和学习控制统一起来，可以通过自然语言直接控制人形机器人整个上半身。 Helix 是首创的“系统 1、系统 2”VLA 模型，用于对整个仿人上半身进行高速、灵巧的控制。之前的方法面临着一个基本的权衡：VLM 骨架通用但不快速，而机器人视觉运动策略快速但不通用。Helix 通过两个互补系统解决了这一问题，这两个系统经过端对端训练，可以进行通信：系统 1：快速反应视觉运动策略，将系统 2 生成的潜在语义表征转化为 200Hz 的精确连续机器人动作。系统 2：经过互联网训练的板载 VLM，工作频率为 7-9Hz，用于场景理解和语言理解，可广泛应用于各种物体和环境。这种解耦架构允许每个系统以其最佳时间尺度运行，系统 2 可以“慢思考”高层次目标，而系统 1 则可以 “快思考”实时执行和调整动作。在训练效率方面，Helix 以极少的资源实现了强大的对象泛化能力。研究团队总共使用了约 500 小时的高质量监督数据对 Helix 进行训练，其规模仅为之前收集的 VLA 数据集的一小部分（＜5%），并且不依赖于多机器人-具身收集或多阶段训练。同时，Helix 只需一个统一的模型，就能在不同任务中实现强大的性能。Helix 的系统 2 参数量为 7B，系统 1 则为 8000 万。

（5）银河通用

银河通用机器人有限公司成立于 2023 年，专注于通用具身多模态大模型机器人研发，并与北京大学等多所高校成立了具身智能相关联合实验室。银河通用研发的端到端具身抓取基础大模型 GraspVLA 及基于仿真数据驱动的训练范式，能够显著提升机器人在复杂环境下的操作精度与适应性，尤其在处理多变材质、动态工况等挑战场景中展现出卓越优势。 GraspVLA 的训练包含预训练和后训练两部分。其中预训练完全基于合成大数据，训练数据达到了十亿帧“视觉-语言-动作”对，掌握泛化闭环抓取能力、达成基础模型。而针对特别需求，后训练仅需小样本学习即可迁移基础能力到特定场景，维持高泛化性的同时形成符合产品需求的专业技能。整个开发过程无需大规模真实数据、仅通过合成数据达到基础模型，开创了 VLA 领域发展的全新范式。

（6）优必选

在优必选内部，人形机器人训练的数据的收集有这样一个“二八定律”：用于人形机器人训练的 20%的数据，由真实的机器人在实际场景中进行遥操作收集而来，80%的数据则是在仿真环境下生成而来。因此，优必选搭建了人形机器人智能仿真系统 UNDERS2，可以低成本地为人形机器人模拟和生成多样化的场景。同时，优必选通过与比亚迪、吉利、东风柳汽等车企合作，将人形机器人（如 Walker S 系列）部署在总装车间实训，打造人形机器人与无人物流车等协同作业的工业场景解决方案。目前优必选正在人形机器人应用场景中验证 DeepSeek 技术的有效性，如多模态人机交互、复杂环境中的指令理解、工业场景中的任务分解与规划等，有望利用推理大模型的深度思考能力解决复杂任务中的挑战。

（7）傅利叶

GR-1：VR 动作捕捉，实现 Sim2Real。傅利叶研发团队率先在安全可控、低成本的仿真环境中训练 GR-1，再将训练好的模型迁移到现实世界（Sim2Real）。这种方式大幅提升了算法的迭代开发效率，降低了算法开发的总体成本。研发人员穿戴 VR 和动作捕捉设备，遥操控制 GR-1 完成各种任务，记录动作数据，用于训练和改进仿真模型，优化机器人运动控制策略，增强在现实中的表现，像人类一样灵活决策，完成各种任务。利用 NVIDIA Isaac Gym 开发人形机器人 GR-2：傅利叶团队采用了 NVIDIA Isaac Gym（现已弃用）进行强化学习，利用 NVIDIA Isaac Gym 开发人形机器人 GR-2，目前正在将其工作流迁移到 NVIDIA Isaac Lab。同时利用 Isaac Gym 对抓取算法进行预训练，在实际部署前，对成功率进行仿真测算。这种方法显著减少了真实世界中的试错，节省了时间和资源。GR-2 支持 VR 遥操作控制、拖拽示教、上位机末端控制等多种上肢示教方式。

五、产业链分析

具身智能产业是一个融合了先进技术、复杂系统集成和多元化应用场景的综合性产业。其产业链结构可清晰划分为上游、中游和下游三个部分。

1、具身智能产业链上游奠定硬件基础，中游打造技术核心

上游环节是具身智能产业的基础，主要包括芯片、传感器、控制器、电机（含伺服电机）、通信模组、能源管理等。这些核心组件是构建具身智能所必需的“硬件”基础。其中，芯片作为具身智能的“心脏”，主要提供强大的计算能力，支持复杂的算法运行。传感器则负责收集外部环境的多维数据，如视觉、听觉、触觉等，是实现具身智能感知功能的基础。控制器对传感器收集的数据进行高效处理，并发出精确的控制指令，指导执行机构完成相应的任务动作。电机是将电能转化为机械能的关键部件，驱动各种执行机构的运动，其中伺服电机作为核心部件，根据控制器指令实现对运动的精确控制，完成精准定位和操作。通信模组负责设备之间的数据传输和通信，确保系统各部分之间的协同工作，实现信息的无缝流转。能源管理为整个系统提供稳定的能源供应，包括高性能电池、先进的电源管理系统等。上游环节是整个产业链的基础，为中游和下游提供了必要的硬件支撑。这些基础设施的质量、性能和可靠性直接影响到中游产品的整体性能和下游应用的实际效果。中游环节是产业链的技术核心，涉及 AI 算法、操作系统、云服务以及中间件的开发与集成。这一环节的工作是将上游的硬件组件“激活”，通过编程和系统集成，使其能够执行复杂的智能任务。AI 算法是具身智能的“大脑”，负责处理和分析数据，做出决策；操作系统为智能设备提供统一的软件平台，支持各种应用程序的运行和管理；云计算提供数据存储、处理和分析能力，支持大规模的数据处理和智能应用；中间件则起到连接不同系统和组件的桥梁作用。中游环节是整个产业链的技术核心，不仅负责实现智能设备的各项功能，还为下游应用提供技术支持和解决方案，推动整个产业链的创新和发展。

2、具身智能涵盖多元产品与应用场景

下游环节是产业链的最终输出端，涵盖了机器人、自动驾驶载具等主要产品，以及这些产品在工业制造、服务业、医疗康复、教育娱乐、交通出行、公共安全等领域的多元化应用场景。这一环节直接面向市场和消费者，是产业链价值实现的最终体现。

（1）载体形态多样，场景需求决定具身智能的落地形态

具身智能的物理载体形态呈现多样性，根据其移动特性或方式，可以分为固定底座机器人、轮式（履带式》机器人、足式机器人、仿生机器人等，其中近期火爆的人形机器人属双足人形。具身智能具体形态的选择上需要洞察场景实际的需求，并不存在“最佳形态”的单一解，但人形机器人具备多场景的“泛用性”，在具身智能的验证、以及特定场景中的最终应用有既定优势。在实际应用场景中，不同形态的机器人可以进行有机地组合以满足具体的场景需求，如在轮式机器人上配备机械臂或灵巧手，配备轮式底座的机械臂既具备了轮式机器人移动迅速、能效高的特点，也兼备机械臂和灵巧手精细操作的优势。

（2）AI 助力机器人泛化性能提升，应用场景从工业制造向服务领域延伸

AI 助力机器人泛化性能提升，突破能力三角制约，进入更多场景。基于人工预先编程的自动化设备，机器人已经被广泛用于工业制造领域并且已经相当成熟，但受限于预编程（或反复示教）的时间成本、机器人的智能化水平等原因的限制，机器人的应用仍然受限于“任务自主性”“任务复杂度”“变化适应性”组成的能力三角形。大模型技术的快速发展，为具身智能技术的进步与应用提供了历史性的突破机遇，在提升机器人智能化水平的过程中，机器人将更全面、精准、敏捷的进行环境感知、任务理解和准确执行，不断提升机器人在复杂环境中处理复杂任务的能力，泛化水平将不断提升。

从专用到通用，从 ToB 到 ToC，具身智能机器人应用场景持续拓宽。作为人工智能与机器人技术的最前沿，具身智能的应用场景会极度多元化，极具想象空间。在工业制造场景，机器人的任务执行和流程和任务本身有高度规则性（可通过编程和训练来高效完成重复性高和强度大的任务）。其中，人类不愿意做的脏活、累活、危险任务，机器人具备极高的劳动力替代性。而服务场景更加开放，相关任务更加多样化，更加不可预测，需要机器人具备更强的自主决策能力与泛化适应性。

工业制造是具身智能率先落地的场景。工业制造流程的特点使得该场景在具身智能技术落地应用方面占据先发优势，如柔性生产需求迫切、工作环境结构化程度高、成本效益优势突出等需求特点，刺激着工业制造场景客户对工业具身智能的应用更加期待。

从工业制造的确定性走向家庭服务的灵活性，具身智能价值极具想象力。机器人在 C 端的应用最具想象力，但短期来看，任务相对聚焦，对泛化能力要求不高工业制造场景下的任务正在更快进入商业化阶段。在工业制造场景实现商业化落地之后，海量机器人的具身数据叠加算力技术的进步，机器人的能力将循序渐进逐步解锁，并向商用服务、家庭服务等更开放的场景进行延伸。

（3）代表企业进展与展望

人形机器人方面：特斯拉 optimus 量产在即。Optimus 已经在特斯拉工厂内承担起了一些简单的任务，例如无需人工干预地分类 4680 电池单元。2025 年年初进行小批量生产，率先在特斯拉内部使用；当年年底，特斯拉工厂将应用数千台 Optimus；2026 年，特斯拉将大幅度提高 Optimus 产量，并向外部出售。华为赋能产业链创新。2024 年 11 月，华为(深圳)全球具身智能产业创新中心宣布正式运营，首批与乐聚机器人、兆威机电、深圳市大族机器人、墨影科技、拓斯达、自变量机器人、华龙讯达、中坚科技、埃夫特、北京创新乐知信息技术、北京中软国际教育、浙江强脑科技、佛山奥卡机器人、禾川人形机器人等 16 家企业签署合作备忘录。

四足机器人（机器狗）：应用场景拓宽，出货量有望高增。宇树、云深处等头部公司已在科研、教育、工厂等场景落地。2023 年宇树的高性能四足机器人占据全球销售份额的 69.75%。预计 2025 年宇树出货量有望实现 50%以上增长。云深处自研的 X30 四足机器人和数字化技术，已经成功交付新加坡能源集团电力隧道巡检解决方案。军用场景持续拓展。2022 年，军用国产机器狗在珠海航展首次亮相， 2024 年珠海航展上，中国兵器装备集团有限公司展出了自主研制的机器狼，未来四足机器人有望在军用领域拓展更多品类和应用场景。预计随着下游应用场景拓宽，机器狗产业链需求有望高增。

3、具身智能产业链发展趋势

具身智能产业未来发展重点有所改变，将推动人类社会进一步迈向智能化新时代。传感器领域的发展，主要围绕着提高精度展开，未来传感器领域的重点将从追求高精度转向追求高鲁棒性发展。目前人工智能芯片的主要应用在云计算场景，未来人工智能芯片将被集成到机器人本体中，使其具备端侧计算能力。算法研究主要围绕着构建高质量的模型展开，未来数据收集和质量将成为重点，驱动模型向多模态融合方向发展。机器人的设计和制造通常采用垂直一体化的模式，未来模块化设计将成为主流趋势，实现产业分工和专业化发展，人机协作有望成为机器人设计的核心理念，进而提高其智能水平。当下工业机器人一直是机器人市场的主力军，未来服务型机器人的市场规模有望超过工业机器人，迎来爆发式增长，并且随着需求的多样化，跨界融合正成为机器人应用的新趋势。具身智能使信息域和物理世界深度融通，进一步拓展人工智能发展边界，不断提升机器人的智能和自主行动能使其更好地理解世界、自然化人机交互和高效执行任务。思维智能和行动智能的有机融合将推动人类社会进一步迈向智能化新时代，加速通用人工智能(AGI)的到来。

六、市场机遇

软件、算法是决定一台符合消费者需求具身智能落地的必要条件，而量产后硬件是人形机器人渗透率提升的关键。然而，部分环节存在较高的技术壁垒，这对相关企业提出了严峻的挑战。2025 年，需密切关注那些有望突破技术壁垒、进入头部主机厂供应链的国产厂商。

1、传感器：目前力传感器、IMU 惯性传感器是国产替代重点

（1）力传感器

力传感器能够测量智能体与环境的接触力和力矩，六维力传感器技术壁垒和价值量高。 2020 年全球力/力矩传感器市场规模合计达到 88.9 亿美元。根据 Mordor Intelligence 数据，2020 年力传感器市场价值为 21.6 亿美元，预计到 2026 年将达到 28.4 亿美元，在 2021-2026 年预测期间的复合年增长率为 4.68%；2020 年全球力矩传感器市场价值为 67.3 亿美元，预计到 2026 年将达到 116.3 亿美元，在 2021-2026 年预测期间的复合年增长率为 9.68%。

六维力传感器当前市场规模较小，2026 年后或出现爆发式增长。根据 MIR 睿工业数据，2023 年我国六维力传感器的出货量及市场规模分别为 9450 台和 2.35 亿元，根据 MIR 预测，六维力传感器的发展将分为两个阶段。 2020-2026 年：这一阶段六维力传感器应用场景少，价格昂贵。柔性化生产的需求是推动六维力传感器出货量提升的主要原因，出货量和市场规模增速呈稳定增长状态，期间复合增长率小于 20%。2023 年人形机器人概念的火热催动更多厂商布局六维力传感器，行业竞争逐渐激烈，厂商不断开发新的应用场景； 2027-2030 年：随着人形机器人规模化量产落地，六维力传感器的出货量和市场规模将快速增加，期间复合增长率超过 100%。原材料成本的下降以及生产工艺的进步有望带动传感器价格的快速降低。

六维力传感器市场集中度较高。根据 MIR 数据，2023 年我国六维力传感器市场集中度较高，TOP10 用户占据接近 70%的份额，国内厂商宇立仪器、蓝点触控分居第二第四位，两家公司在国内厂商中的合计市占率超过 50%。行业整体目前仍以外资品牌为主，市占率前十其中有 7 家属于外资品牌，外资品牌在产品和应用上占有较大先发优势。随着人形机器人技术不断成熟，逐步实现批量化生产，头部厂商有望占据优势，凭借领先的产品性能率先获得应用机会。

随着六维传感器的应用深化，国产品牌的市场份额有望持续提升。根据 MIR 数据，2023 年我国六维力传感器市场内资出货量占比为 32.1%，长远来看内资市场份额有望持续提升，2030 年达到 81.7%。从产品性能看，以宇立仪器、蓝点触控为代表的国产厂商不断进行技术深耕，实现产品的选代更新，部分核心技术已赶超外资品牌；从性价比看，内资品牌能够凭借供应链优势进一步降低成本，保持性能的同时能提供价格更低的产品；从服务能力看，国产品牌普遍针对客户的反馈服务效率更高，目前大多数外资品牌在中国只有办事处或只依靠代理商，服务能力相对较差。国产厂商目前逐渐在缩小与外资品牌的差距，未来国产品牌的性价比将稳定优于外资品牌，国产品牌也将不断探素应用场景，向外资品牌的应用场景渗透，助力市场份额持续提升。

（2）惯导 IMU

惯导系统是一种完全自主的导航方式。惯导系统的核心是惯性测量单元（Inertiameasurementunit， IMU），利用物体在惯性空间的线速度和角速度，进而解算出物体的姿态、位置、速度信息。IMU 通常包含陀螺仪和加速度计，根据传感器配置差异，可分为六轴（3 轴加速度计+3 轴陀螺仪）与九轴（增加 3 轴磁力计，即 AHRS）两类，后者融合磁场数据提升姿态角精度。机器人等消费类产品多采用 MEMSIMU，具有体积小、成本低、功耗低、易于集成和智能化的特点，而航天、军工等高精度领域多采用光纤、机械陀螺等制成的 IMU。当前惯导已在消费电子、汽车、工业、国防场景中有了广泛应用。具身智能对 IMU 的需求有望快速增长。根据 Yole 测算，2023 年全球 MEMSIMU 市场中，消费电子、汽车、国防、工业场景的占比分别为 47%、29%、19%、5%。随着具身智能的发展，IMU 有望迎来新的应用领域。在具身智能中，IMU 单元同时起到了自主导航与姿态平衡的作用，助力具身智能更好地适应非平坦复杂路面，并增强抗干扰行走、跌倒检测、动态平衡控制等能力。丰田 Asimo、波士顿动力 Atlas、AgilityDigit、优必选 WalkerX 等人形机器人产品均至少搭载了 1 个 IMU 单元，能够认为 IMU 单元有望成为具身智能提高运动性能所必备的传感器之一。

据 Yole 数据，2022 年全球出货的 MEMS IMU 数量为 15 亿个，市场规模 19 亿美元，预计到 2028 年市场将增长至 21 亿个，规模达 26 亿美元，CAGR 达 5%，且在 MEMS 惯性传感器市场中的占比逐步上升。

行业集中度较高，海外厂商先发优势明显。海外厂商惯性技术积累深厚，产品系列更为齐全，掌握高端产品的自主研发与开发能力，在市场中占有主导地位。根据 Yole 统计，2023 年全球高端惯性传感器市场中，CR3（美国 Honeywell、德国 Northrop Grumman Litef、法国 Safran）合计占有 67%市场份额；聚焦 MEMS 惯性传感器，2021 年全球高端 MEMS 惯性传感器市场 CR3（美国 Honeywell、美国 ADI、德国 Northrop Grumman Litef）占据 55%市场份额。中国本土 IMU 厂商大多定位于消费级产品，技术水平整体与海外差距较大，仅少数企业掌握高端惯性传感器设计工艺，国产化仍有长足的发展空间。

2、空心杯电机：灵巧手核心部件，国产替代有待突破

灵巧手是人形机器人成本占比最高的零部件。不同人形机器人的方案不同，灵巧手的成本占比也有波动。目前灵巧手价格占人形机器人整机成本约 20%-30%，是占比最高的零部件。当前阶段，灵巧手存在较大的升级优化空间，是产业链瓶颈环节。当前灵巧手还只能完成人手的部分功能，软硬件均有较大提升空间，是当前阶段人形机器人硬件上的最大瓶颈。马斯克也曾坦言，灵巧手的研发难度和工程量可能占到整机开发的一半。灵巧手对空间要求苛刻，一般使用微型电机。目前主流方案包括空心杯电机和无刷直流电机。空心杯电机属于直流永磁电机，与普通有刷、无刷直流电机的主要区别是采用无铁芯转子，也叫空心杯型转子。由于转子结构变化，空心杯电机体积小巧，重量和转动惯量大幅降低，具备了铁芯电机所无法达到的控制和拖动特性。此外转子结构彻底消除了因为铁芯形成涡流而造成的电能损耗，具有突出的节能特点。

空心杯电机也可以细分为无刷空心杯电机和有刷空心杯电机。两者在转向方式、转子构成、寿命、转速、抗干扰等方面性能存在差异。

全球空心杯电机以海外企业为主导，市场集中度高。空心杯电机技术含量高、生产难度大，同时下游应用领域不断扩大，对产品的性能存在差异，制造厂商需具备一定的定制化生产能力予以应对。此外，由于技术更新迭代迅速，空心杯电机厂商需及时对产品进行迭代及优化。目前来看，全球空心杯市场仍以海外厂商为主导，2023 年国外制造商市占率为 85.00%。由于海外头部企业技术累积深厚，2022 年全球空心杯电机市场 CR5 为 67.00%，全球前五企业分别为 Faulhaber、Portescap、Allied Motion Technologies、Maxon Motor、Nidec Copal Corporation。

空心杯电机：降本&国产替代关键在于绕线环节突破。绕线环节式空心杯电机生产的关键技术壁垒，也是降本以及国产化替代的核心。工艺方面，目前国产厂商普遍使用半自动化的卷绕生产，工艺繁琐，耗时较长，良品率低且线圈直径较小，限制其成本及性能，Maxon 等海外领先厂商多使用高度自动化的一次成型生产，随着国产厂商技术突破与改进，有望大幅提升生产效率，实现降本；设备方面，我国自主生产的空心杯电机绕线设备相对空缺，多为外采海外设备，固定成本较高。随着中特科技、勤联科技等国产设备厂商产品应用，有望降低空心杯电机厂商的生产成本。

空心杯电机市场规模稳步增长，其中中国市场增速较快。根据中商产业研究院相关数据，2023 年全球空心杯电机市场规模为 8.1 亿美元，2024 年全球市场规模达到 8.7 亿美元，2028 年将增至 11.9 亿美元， CAGR 为 9.4%。国内市场方面，2023 年中国空心杯电机市场规模为 2.9 亿美元，2024 年中国市场规模达到 3.2 亿美元，2028 年将增至 4.7 亿美元，CAGR 为 12.4%。

七、相关公司

紧抓具身智能产业化浪潮，机器人、核心供应链、具身智能+应用场景值得关注。

1、奥比中光：业绩拐点初现，“机器人之眼”领军企业扬帆起航

全球 3D 视觉感知龙头，机器人突破有望带动业绩上涨。奥比中光主要产品包括 3D 视觉传感器、消费级应用设备和工业级应用设备，已实现六大 3D 视觉感知技术全面布局，产品主要应用领域为生物识别、 AIOT、消费电子、工业等。分产品看，公司主营业务收入主要来自于销售 3D 视觉传感器。公司已实施多期员工激励计划、确认大额股份支付费用，近五年研发费用率持续高于 50%，导致净利润尚未转正。当前公司在机器人领域中，产品持续放量，将有望拉动公司营收实现高速增长，带动公司逐步扭亏。公司面向服务、工业、人形等多类型机器人领域，构建了覆盖深度相机（单目结构光、双目结构光、 iToF）、激光雷达等全技术路线 3D 视觉传感器体系。在人形机器人领域，公司 3D 视觉传感器能够为人形机器人与现实世界交互提供重要支撑，目前公司 Femto 系列 iToF 深度相机 Gemini335/336 等系列结构光深度相机等产品已与人形机器人客户进行适配。此外，斯坦福大学李飞飞教授团队使用了奥比中光深度相机 FemtoBolt 实现机器人动作优化和复杂交互。公司 2024 全年实现营业收入 5.64 亿元，同比增速 56.79%；实现归母净利润实现-0.63 亿元，同比增速 77.20%；实现扣非归母净利润-1.12 亿元，同比增速 65.35%。2025 年 1 季度实现营业收入 1.91 亿元，同比增速 105.63%；实现归母净利润 0.24 亿元，同比增速 184.48%；实现扣非归母净利润 0.03 亿元，同比 108.38%；业绩表现亮眼，未来趋势向好。

2、索辰科技：收入规模稳定增长，物理 AI 产品未来可期

索辰科技成立于 2006 年，是一家专注于 CAE 软件研发、销售和服务的高新技术企业。公司目前已形成流体、结构、电磁、声学、光学等多个学科方向的核心算法，并开发出多类型工程仿真软件。可满足航空航天、国防装备、船舶海洋、重型机械、核工业、电子电器、地面交通等复杂产品或工程领域的仿真需求。发布国产物理 AI 系列产品，赋能千行百业 AI 产品落地。2025 年 3 月，公司基于 CAE 软件开发在跨学科能力和工程经验的积累发布物理 AI 系列产品：索辰物理 AI 应用开发平台（天工•开物）及机器人设计训练平台、面向工业装备的设计优化与物理 AI 训练平台等。其物理 AI 训练平台能够使得大模型输出兼具创新性与物理一致性，支持客户轻松开发和部署应用，加速设计与制造，有助于推动机器人等应用场景快速落地。 2024 年以来，公司通过战略并购不断完善产业链布局。2024 年 12 月，公司战略投资 8,800 万元并购麦思捷，借助麦思捷在大气、海洋环境等领域的专家级经验解决相关工程问题；2025 年 2 月，公司筹划并购力控科技，拟取得其 51%股权，为物理 AI 实时孪生体提供环境感知、数据传递等技术，提高物理 AI 应用的准确性和可靠性。2024 年，公司还投资了索辰仿真、焜原光电、富迪广通等公司，通过整合优势资源进一步提升公司竞争力。公司近日发布 2024 年年报和 2025 年第一季度报告，2024 年公司实现营业收入 3.79 亿元， YoY+18.24%；实现归母净利润 0.41 亿元，YoY-27.89%；毛利率 71.86%，同比提升 2.42pct。2025Q1 公司实现营业收入 0.39 亿元，YoY+21.73%；实现归母净利润-0.16 亿元，YoY+26.51%；毛利率 37.73%，同比降低 6.03pct。收入端保持增长态势。

3、中科创达：端侧智能创新赛道开辟新增长点

公司是全球领先的全栈式智能操作系统及端侧智能产品和技术提供商，深耕智能操作系统领域 16 年。三大核心业务：智能软件、智能汽车以及智能物联网协同发展并驾齐驱。中科创达发布的整车操作系统“滴水 OS”，滴水 OS 积极拓展全球生态合作，与 Dirac、火山引擎、大众旗下 CARIAD 等企业建立深度合作，共建联合实验室，赋能车端智能发展。尽管汽车业务增速暂时放缓，但随着智能座舱业务持续发力，未来可期。同时，公司发力端侧智能创新赛道，旗下创通联达推出轻量化 AI 眼镜 SmartGlasses 和混合现实 MRHMDPro，搭载高通骁龙平台，树立行业标杆。此外，公司还为高通面向 Windows 的骁龙开发套件提供一站式服务，并推出四款 AIMiniPC 参考设计，助力 AIPC 市场发展，开辟新增长点。具身智能机器人实现突破。2023 年 9 月，公司的机器人团队-晓悟智能成立。目前,公司已发布了面向仓储物流、生产制造场景的智能移动机器人，可完成自动化入库、拣选、分拨以及自动生产设备的对接等，从而实现高效的柔性制造。自动驾驶汽车与机器人同为具身智能载体，公司在智能汽车视觉领域具备多年积累，Rubik 大模型作为机器人“大脑”提供更高效的理解能力，核心技术有望在机器人感知、理解方面实现深度赋能。2024 年，晓悟智能的子公司西安龙行智巡科技有限公司在西安正式揭牌成立。另外, 公司多款智能机器人新品亮相 CeMAT ASIA。公司的工业智能移动机器人产品在汽车及零部件、锂电、 3C、食品及饮料等行业形成落地应用。 2024 年年报。2024 年，公司实现营业收入 53.85 亿元，同比增长 2.72%；实现归母净利润 4.07 亿元，同比下降 12.60%；实现扣非归母净利润 1.75 亿元，同比下降 48.49%。2024 年，公司重点布局机器人等端侧智能领域，研发费用同比增长 8.16%。

4、能科科技：工业软件与 AI 新兴业务爆发，核心技术引领未来

能科科技成立于 2006 年，2016 年在沪市主板上市，是国内领先的智能制造与工业数字化转型服务商，聚焦工业互联网、数字孪生、AI 算力底座等核心领域，深度服务国防军工、汽车、半导体等高端制造业。企业聚焦工业软件与智能制造领域，形成了以核心业务为基石、新兴业务为增长引擎的多元化布局。核心业务方面，工业软件与云服务是重要支柱，旗下“乐系列”产品（如乐仓生产力中台、乐造企业应用等）表现亮眼，2024 年云产品与服务收入达 4.58 亿元，占总营收的 30.34%，毛利率高达 53.83%；智能制造系统集成业务则覆盖了研发设计、生产制造全生命周期，2024 年软件系统与服务收入 3.16 亿元，并成功服务中国商飞、中航工业等知名客户。新兴业务方面，企业积极拥抱前沿技术，AI 算力与 Agent 应用业务爆发式增长，2024 年收入 2.73 亿元，同比激增 1256%，推出的“灵系列”AI Agent 产品已应用于机器人训推、汽车工艺优化等场景，并中标 1.24 亿、1.45 亿元大模型项目；具身智能与特种装备领域，布局了机器狗、机器狼等智能设备，2024 年已签订 2.68 亿元特种行业合同。此外，该企业还紧密围绕工业互联网、AI 算力、数字孪生、国产替代、军工信息化等热点概念进行战略布局，未来发展潜力巨大。能科科技凭借领先的技术实力与创新能力，打造了极具竞争力的核心产品与解决方案。其核心产品包括乐仓生产力中台和高压变频器系统。乐仓生产力中台能够适配华为云、西门子等主流生态，为企业数字化转型提供强有力的支撑，预计 2024 年将服务超过 3000 家客户；高压变频器系统则实现了重大突破，于 2024 年中标徐大堡核电站价值 1.5 亿元的主泵变频器项目，成功打破了外资在该领域的长期垄断。在技术水平方面，拥有 251 项专利，并主导制定了 5 项国家标准，彰显了其深厚的技术积淀。此外，公司还与华为合作开发了工业数字模型驱动引擎（iDME），并自研了适配昇腾芯片的 AI 大模型平台，将该平台的训练效率提升了 40%，同时获得了 GRS 全球回收标准认证，进一步巩固了其在行业内的技术领先地位。公司 2024 年全年实现营收 15.10 亿元，同比增长 7.47%，但净利润为 1.92 亿元，同比下降 15.17%。业绩下滑的主要原因是研发投入增长导致费用率达到 12.88%，以及传统业务出现收缩。进入 2025 年，一季度营收为 3.37 亿元，同比下降 16.65%，净利润 0.49 亿元，同比下降 12.07%，主要受工业电气产品交付节奏的影响。

5、软通动力：开启人形机器人新篇章

软通动力是国内 IT 服务领军企业，收购同方计算机后开启“软硬一体”战略，在鸿蒙加速发展、信创政策落地、人形机器人训练速度有望加快的背景下，软通动力有望迎来较大发展机遇。公司在 All in AI 的基础上，发布软硬全栈 AI 战略，业务范围涵盖 AI 工作站、AI 服务器、AIPC、具身智能机器人等多个新兴领域，并持续深化华为生态合作。基础软件领域，公司重点围绕开源鸿蒙、鸿蒙操作系统、开源欧拉、开源高斯数据库开展产品研发，有望受益鸿蒙生态繁荣发展。据上海证券报，截至 2025 年 3 月原生鸿蒙已上线 2 万+应用，微信、抖音、支付宝等头部应用超 200 万次下载；据 PC on line 太平洋科技数据，截至 2025 年 2 月全国已有数千个政企内部办公应用完成对鸿蒙系统适配，覆盖金融、能源、矿产等 30 余个关键行业。2025 年 4 月，国务院新闻办公室表示“推动更多 APP 上架鸿蒙应用商店”；2025 年 5 月 8 日，鸿蒙 PC 正式发布，华为终端全面进入鸿蒙时代。投入布局机器人业务，打造通用场景机器人产品。2024 年，公司成立人形机器人公司总部，同时与智元机器人达成战略合作，打造通用场景人形机器人。能力打造上，公司自研星云具身智能计算平台，并深度融合公司自研的天鹤操作系统及星云机器人智能操作系统；同时公司研发大小脑算法，深度集成已有的天璇大模型服务平台，支持人形机器人拥有多模态感知、自主学习、规划与决策等能力。具体机器人产品包括：1）软通天擎 AD01 轮式机器人，定位工业柔性制造实现高危用工替代；2）软通天擎 LC01 双足人形机器人，聚焦展厅/博物馆等交互场景和科研院校教育行业；3）软通天擎 LA01 全尺寸双足人形机器人，聚焦大型公共展厅专业讲解与智能问答等交互场景；4）软通天汇巡检复合机器人，面向工农业领域中设备巡检处置场景。 2024 年公司实现营收 313.16 亿元，同比增长 78.13%；实现归母净利润 1.80 亿元，同比下滑 66.21%；实现扣非归母净利润 0.72 亿元，同比下滑 84.31%。2025 年 Q1 公司实现营收 70.11 亿元，同比增长 28.65%；归母净利润亏损 1.98 亿元，上年同期亏损 2.77 亿元；扣非归母净利润亏损 2.16 亿元，上年同期亏损 2.84 亿元。

6、海康威视：海外业务与创新业务双轮驱动，具身智能开启发展新篇章

海外业务产品及营销服体系持续完善，有望继续保持稳健增长。公司业务已覆盖 180 多个国家和地区，采取“一国一策，一品一策”的营销战略，基于国家业务发展阶段的不同，因地制宜推进本地化营销战略的落地，持续提升海外产品的竞争力和适配度。在海外市场，公司以图像技术、人工智能技术、多维感知技术为核心，不断完善符合海外需求的 AIoT 产品家族，基于海康观澜大模型，公司首次推出面向海外的大模型产品，如 DeepinView 相机、DeepinMind 后端产品，在周界防范等场景上极大提高了目标的检出率和检准率，大幅降低误报率。公司海外业务 2024 年实现营收 259.89 亿元，同比增长 8.39%；公司在海外保持资源的持续投入，深化营销网络，拓展开放能力，深耕海外垂直可为行业市场，未来几年海外业务仍有望保持稳健增长。创新业务多元布局，并已在各自领域取得领先地位，有望持续快速增长。公司创新业务目前包括海康机器人、萤石网络、海康微影、海康汽车电子、海康存储、海康消防、海康睿影与海康慧影，海康机器人聚焦工业物联网、智慧物流和智能制造，持续在机器视觉和机器人领域深耕投入，全新推出系列化关节机器人，基本构建了具备感知、决策、移动、执行闭环的具身智能技术架构体系，已经成为国内行业龙头公司。萤石网络掌握从硬件设计研发制造到物联云平台的全面能力，已成为行业内少有的具备完整垂直一体化服务能力的 AIoT 企业。海康微影深耕高附加值 MEMS、光电器件和传感器技术，构建温度、压力、流量、物位等多维感知能力，已成为国内热成像领域领军企业。海康汽车电子业务在乘用车前装领域已经成长为国内智能驾驶传感器领军企业，2024 年完成对森思泰克的业务整合，海康汽车电子业务整体规模和研发实力得到了进一步增强，车载摄像头和毫米波雷达的市场占有率均处于国内领先地位。

2024 年创新业务总收入为 224.84 亿元，同比增长 21.19%，占公司营收比重为 24.31%；海康机器人、萤石网络、海康微影、海康汽车电子等主要业务均已在各自领域取得领先地位，创新业务仍处于高速发展期，有望继续保持快速增长。 2024 年公司实现营收 924.96 亿元，同比+3.53%；归母净利润 119.77 亿元，同比-15.10%；扣非归母净利润 118.15 亿元，同比-13.55%；2025 年第一季度公司实现营收 185.32 亿元，同比+4.01%，环比32.62%；归母净利润 20.39 亿元，同比+6.41%，环比-47.32%；扣非归母净利润 19.26 亿元，同比 +9.44%，环比-47.42%。

八、发展挑战及技术趋势

1、具身智能作为新兴技术，仍然面临训练数据与模型能力等多重挑战

通过多学科的融合发展，具身智能已经展现出了赋能人类经济生活各方面的能力与潜力，但产业链各环节的发展与应用水平不一，仍然给具身智能的整体发展带来了多维度的挑战。机器人的智能化水平仍受到现有方法与能力的制约，其感知能力、执行能力、学习能力、自适应能力、硬件性能、验证方法等受限于技术水平与产业链现状，虽然展现出了潜力，但距离实际落地应用仍有较远的距离。

2、数据赋能，联盟与开源数据集驱动具身智能机器人产业增长

高质量的数据是训练高性能具身智能机器人的基础，联盟与开源数据集的建设将有力推动相关技术的进步和应用落地，加速整个行业的增长。通过行业联盟、跨界合作等方式，共同构建高质量、大规模的具身智能数据集，解决数据稀疏和碎片化的问题。开源数据集能够降低研发成本，加速技术迭代，吸引更多开发者参与，促进创新生态的繁荣。

3、未来如何训练机器人：世界模型

世界模型：被认为是实现通用人工智能（AGI）的重要环节，终极目标是构建一个统一的模型能够复制基本的世界动态。世界模型可大体分为两部分：内部表征和未来预测。1）内部表征：用于理解世界机制；2）未来预测：预测未来状态以模拟和指导决策。作为具身环境的世界模型：具身环境世界模型的开发对于模拟和预测智体如何与外部世界交互和适应外部世界至关重要。这些模型不仅代表世界的视觉元素，还结合更准确反映现实世界动态的空间和物理交互。通过整合空间表示并从基于视频的模拟过渡到沉浸式具身环境，世界模型现在可以为开发能够与复杂的现实世界环境交互的智体提供更全面的平台。

世界模型正在打造具身智能技术进步的“演武场”与“弹药库”。对于具身智能，世界模型能够辅助具身大模型进行训练，提供的训练型的仿真：其生成的视频交给具身大模型，具身大模型通过它的规划执行接下来的动作，接下来的动作交互产生新的场景、新的视角，再通过世界模型继续生成新的数据，进行闭环仿真的测试，成为具身智能机器人的“演武场”。以 NVIDIA 新发布的 Cosmos 世界基础模型为例，世界模型能够为自动驾驶、具身智能机器人等多种 AI 模型提供符合物理规律的逼真数据，大幅降低数据采集与标注的成本，充足的“弹药”有望在未来极大地加速具身智能的学习速度。

世界模型训练的可行性：机器人训练成本的大幅下降。训练成本的降低。随着 GPU 成本的下降，大模型训练的成本大幅降低。•在截至 2024 年 6 月的过去一年中，Azure 云平台上的 A100 显卡租赁价格从 6 美金/时下降到 1.5 美金/时，降幅达到 75%。硬件成本同样在快速降低。2020 年 L3LiDAR 传感器的成本在 7400 美金左右，现在已经降至 3200 美金；类人无芯传感器的成本也出现了明显下降。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）