2025年机器人行业分析:垂直领域具身智能机器人的野望

1.垂直领域具身智能机器人,为什么是现在看好?

1.1“大脑”成熟度逐步提升,打造具身智能落地基础

机器人“大脑”主要功能包括实时交互、多模态感知、自主可靠决策、涌现和泛化等。需 要规模数据集、云边端一体计算架构、多模态感知与环境建模等多方面技术能提供支撑和 实现融合创新,以端到端具身大模型为核心的机器人“大脑”才能取得突破和发展。

目前的大模型已经在视觉和语言处理方面取得重大突破,在机器人领域具有巨大应用潜力: 机器人“大脑”最基础的模型为 LLM(大语言模型)+VFM(视觉基础模型),其中 LLM 主 要是主要是通过深度学习技术训练的大规模神经网络,主要用于理解和生成自然语言,VFM 一般以卷积神经网络(如 ResNet 等)或者 Vision Transformer(ViT)等为基础模型,通 过自监督学习的方式提取图像的特征表示,随后将特征提取器用于下游任务。

谷歌 SayCan 模型就是典型的 LLM+VFM 架构,解决了 LLM 缺乏真实世界经验,不适用于机 器人在特定环境中执行任务的问题。通过预训练技能的价值函数对齐(Grounds)大语言 模型或者通过价值函数的训练使大语言模型对用户指令进行推理分解获得任务步骤,使其 提出既可行又在情境上合适的自然语言行动。

多模态模型指一个模型能够接受输入不同“模态”,例如图像、文本或音频信号。VLM(视 觉语言模型)同时融合了 LLM 和 VFM,是一种同时接受图像和文本的多模态模型,同时接 收图像和语言作为输入,并根据语言指令和图像信息产生输出,完成图像问答任务,实现 更准确的任务规划和决策。例如清华大学交叉信息院高阳研究组提出 ViLa 算法,通过利 用 GPT-4V 这类 VLM,使机器人能够在复杂环境中主动进行任务规划。

VLA(视觉语言动作模型)在 VLM 的基础上进一步增加了运动控制,解决了机器人的运动 轨迹决策问题,能够减少将高层次任务映射到动作所需要的训练数据。例如谷歌的 RT-H 模型利用 VLM 来预测语言动作,再将这些语言动作与运动动作进行条件匹配,为机器人预 测动作。这种动作层次结构使得模型能够在许多语义不同的描述之间共享结构,与直接将 任务映射到动作相比,这在各种多任务数据集上能实现更好的数据共享。这种层次结构还 使人类能够选择提供语言修正,以防止任务失败,然后使用这些新的语言动作来预测更好 的动作。一旦人类完成干预,RT-H 会像之前一样预测语言动作。

目前预训练大模型研究发展迅速,显著提高了机器人感知、决策、控制能力。

1.2 垂直领域缺数据、推理慢、控制难等问题有望解决,加速产业化落地

1.2.1 从场景获取真机数据,加速实现“数据飞轮”

机器人产业具有巨大成长潜力的底层逻辑是“数据飞轮”,通过更多的机器人部署能带来 更多数据以供训练,最终优化出更成熟的模型强化机器人性能进一步推动放量,形成自我 加速的正向循环。

相比于通过互联网大量的文本和图像数据进行训练大语言模型,能够用于机器人模型训练 的特定数据很少,尤其是 3D 数据,虽然多模态视觉和语言模型可以分析 2D 图像,但缺乏 3D 空间关系、3D 规划、3D 特征等。目前出现了较多由机器人企业、科研机构整合的机器 人数据集,但数据的量级依旧偏少。

目前有一些方法来解决数据瓶颈,但仿真数据的保真度和规模有限,依旧是真机数据训练 效果最好。

为了获得更多真机数据,目前有机器人企业通过数据采集工厂进行数据收集。智元基于数 据采集工厂中的家居、餐饮、工业、商超和办公五大核心场景推出了 AgiBot World 数据 集。

我们认为要扭转真机数据不足的问题,更多的还是在某一细分垂直场景实现机器人应用突 破,让训练数据结构从“正三角”转为“倒三角”,加速实现“数据飞轮”。

1.2.2 需要的模型更“小”,解决推理太慢痛点

模型的大小与性能之间存在一定的正相关关系,更大规模的模型通常能习得更丰富的模式 和更复杂的表示,从而在许多任务上实现更好的性能表现。描述性能与模型关系的 Scaling Law 理论由 OpenAI 在 2020 年提出。Scaling Law 是指模型的性能与计算量、模 型参数量和数据大小三者之间存在的关系。具体地,当不受其他因素制约时,模型的性能 与这三者呈现幂律关系。这意味着,增加计算量、模型参数量或数据量,都可能会提升模 型的性能,但是提升的效果会随着这些因素的增加而递减。

Scaling Law 的理论是针对训练阶段而言的,而不是推理阶段。从推理阶段看,目前机器 人大模型普遍推理时间较长,实时性还有较大改善空间。

Figure 通过加入一个更小模型的方式来解决推理速度太慢的问题。Figure 推出的 Helix VLA 模型通过部署两个模型解决了 VLM 模型基础架构通用性强但响应速度较慢的问题,通 过再加入一个视觉运动策略速度快但通用性差的模型进行互补,这种解耦架构可以让系统 在最佳时间尺度上运行,系统 2 可以“慢思考”高层次目标,而系统 1 可以“快思考”以 实时执行和调整动作。

在具体的垂直场景中,模型并不是越大越好,更大的模型算力需求更大、推理时间更长、 能耗/维护成本更高,选择基于垂直场景专业知识和数据进行优化训练的垂直大模型更加 适合。

1.2.3 不追求人形形态,控制算法更成熟

机器人的应用落地除了大模型的“大脑”外,还有负责运动控制的“小脑”。“小脑”主要 是依照具体的运动轨迹要求,根据负载情况,通过驱动器、驱动执行电机完成相应运动轨 迹要求的系统。通常包括运动控制器、伺服驱动器、执行器、运动反馈单元等。

人形机器人的运动控制难度较高,根据《基于动作捕捉技术对仿人机器人运动学分析与仿 真》信息,人形机器人下肢可简化为 14 自由度系统,其中,髋关节为 3 个自由度,分别 为横滚、俯仰和偏转,通过 1 个虎克副和 1 个旋转副来连接;同样的传动方式也作用于踝 关节的 3 个自由度,每个膝关节 1 个前向自由度,通过 1 个旋转副连接。

双足行走的过程较为复杂,步态优化控制和鲁棒稳定性等研究上仍存在有待解决的问题, 尤其是在具体场景中进行应用要求更高。

所以尽管双足行走理论上由于其他行走方式,考虑到垂直场景以功能实现为优先,下肢可 以采用轮式的方案进行过渡,整体的控制难度更低。

1X 发布的轮式机器人 EVE 搭载的世界模型已经可以根据动作指令生成控制轨迹完成移动。

部分垂直场景不需要机器人进行移动,在这种固定位置的情况下机器人更像是搭载了大模 型的工业机器人,在硬件、运动控制策略等方面成熟度较高,一旦模型成熟就可以快速实 现产业化落地。

目前例如华中数控、拓斯达等原先拥有“小脑”+工业机器人技术储备的企业均推出了仅 有上肢的机器人产品,搭配上合适的垂直大模型有较好的产业化应用前景。

2.哪些场景潜力大?

2.1 潜在场景寻找思路

2.1.1 工业/服务机器人渗透率的逆向思考,工业机器人渗透率越低未来前景越大

中国制造业自动化水平近年快速提升,尤其是得益于新能源汽车市场的快速增长,到 2022 年工业机器人密度已经反超日本走向全球领先。

汽车等标准化程度较高的制造业领域已经实现了工业机器人的大规模应用。

目前工业机器人基本上能覆盖全部常见制造业工序如搬运、上下料、装配、检测等,但在 较多细分行业的覆盖场景和应用深度有限,我们认为主要是因为工序较为柔性,难以实现 较好的低成本规模化应用。根据艾瑞咨询研究院的统计,塑料化工、食品加工、家电等行 业有较多工序工业机器人应用成熟度较低。

尤其在服务行业的工作内容更加柔性,机器人的应用比例更低,服务业中仅物流仓储、酒 店机器人应用比例相对高,其他行业渗透率均较低。

目前比较成熟的工业/服务机器人应用主要是解决较为简单的重复性劳动来降低人工成本, 最常见工业机器人的上下料、装配和服务机器人的酒店送餐、扫地等场景,在工作流程不 够标准化的行业很难推广。而在垂直大模型的加持下我们预计该情况会发生较大改变,设 备柔性化程度大幅提升、人机协作能力强化、使用门槛降低,未来会有大量“爆款”场景 落地。

2.1.2 哪里“缺工”看哪里,三种机器人覆盖三种类型工作

人力资源社会保障网站发布过 2022 年四季度全国招聘大于求职“最缺工”的 100 个职业 排行,其中除汽车行业属于增长较快有一定人员短缺外,其他“缺工”主要集中在餐厅、 家政、物流、养老、服装等行业。

我们认为可以总结出几种典型的机器人应用场景,在下游“缺工”情况下渗透率有望快速 提升: 1)具身智能工作站:主要解决无法直接高效应用工业机器人的柔性化制造业场景,以垂 直大模型+工业机器人为基础,快速推广应用,例如解决服装行业始终为劳动密集型行业 的情况。 2)轮式机器人:具备一定拟人化能够提供情绪价值,解决家政、养老护理相关工作“缺 工”问题,成长潜力较大。 3)人形机器人:拟人化程度最高,直接对接消费者完成服务。

2.2 服装:主要针对缝纫环节,解决招工难、人工成本高等下游核心痛点

目前服装厂的成衣制造工序可大致归类为缝前、缝中、缝后环节,缝前主要通过使用铺布 机、裁床完成开片,均可采用大型的自动化设备完成;缝中主要通过使用工业缝纫机进行 缝纫加工,需要大量人工参与,也导致服装产业为劳动密集型产业,目前即使是使用模板 机之类的自动化设备,上下料也需要较多人工参与;缝后主要是整烫、分拣、打包等,目 前较多企业开发了智能吊挂线等,实现了较高的自动化水平。

其中的主要痛点在于缝纫的柔性化程度太高,在衣服款式/尺寸、布料种类/厚度等变量影 响下基本只能通过人工手动完成。

即使是将工业缝纫机升级为模板机,上下料的环节还是涉及较多人工操作。

从具体的机器人功能来看,主要需要的是实现布料的移动、折叠、平铺等操作,而布料属 于可变形物体,物理交互复杂对大模型、传感器要求较高,同时物理特性很难精准建模。

目前整体来看,针对布料处理在大模型、传感器上均有一定的成熟度,而且相关的技术正 在快速迭代,产业化落地指日可待:

1)传感器阵列实现针对布料“触觉”: 帕西尼发布的 PX-6AX GEN2 触觉传感单元采用多点面阵式传感器触电,可通过多维触觉感 知信息实现布料识别,在服装行业有较好应用前景。

2)可以通过世界模型生成布料折叠长时程任务模拟: 1X 世界模型具备生成布料折叠长时程任务能力,布料作为可变形物体,模拟的难度比刚 体复杂得多,其物理特性很难精准建模。

NUS 邵林团队提出的 FLIP 框架将图像流(像素级动态轨迹)作为通用动作单元,结合动 力学模型预测短期视频结果,并通过视觉语言价值评估规划质量,在多样基准测试中,提 升了长时程视频规划合成成功率与质量,具备潜在应用前景。

目前 FLIP 可以有效模拟各种复杂的机器人操作任务,展示了良好的交互性、零样本迁移 和可扩展能力,在包含了布料折叠的多个任务场景中可通过图像流生成长期规划方案,实 现零样本迁移,结果优于 LVDM、IRASim 等方法。

3)已经可通过人类演示数据训练实现未见过的布料折叠操作: 同济大学智能机器人与计算感知实验室提出了 SSFold,一种结合图结构感知与人类演示 学习的通用布料折叠方法,能够实现对布料整体形态的推理与操作决策,同时引入了基于 手部追踪的人类演示数据,有效提升了模型在现实中的适应性和泛化能力。

该方法已经可以对未见过的布料完成单折、双向内折、三角折等操作。

目前缝制机械领军企业杰克股份已经开始布局缝制机器人,“自主缝制作业机器人系统研 制与应用验证”项目由杰克科技牵头,联合浙江大学、东南大学、华南理工大学、安徽工 程大学、江南大学 5 所高校,以及珞石(山东)智能科技有限公司、北京软体机器人科技 股份有限公司等企业共同参与,计划用 3 年时间破解缝制产业智能化转型瓶颈。

杰克股份作为缝制机械企业切入服装机器人领域,在数据、场景上有先发优势,在产品完 成实验室的零到一训练后有望快速推向终端客户实现更多设备部署,此次项目多个高校加 持,有望进一步加速服装机器人产业化落地节奏。

2.3 康养:机器人最终进入家庭最优的过渡场景

我们认为人形机器人应用的“终极场景”之一是直接面向家用场景,成为类似汽车的耐用 消费品,发挥陪伴、管家、保洁等多重功能。

在走向“终极场景”目标的过程中,我们认为康养机器人是非常好的过渡场景,这些领域 往往面临“招工难”的痛点,硬件上看机器人下肢也可以先采用轮式方案进行过渡,主要 开发上肢的操控以及人机交互功能,更容易实现产业化落地。

早在 2009 年,日本就有企业推出了可以抱起瘫痪病人的 RIBA-II 型机器人,上肢采用了 14 自由度的双臂结构,建立了基于姿势、力、速度、加速度、舒适度和患者体征的安全 评估数学模型,通过传感器确保安全接触。

Diligent 推出的 Moxi 机器人充分展示了垂直机器人在具体场景应用的巨大潜力,Moxi 在医院场景中为药房工作人员节省了超过 15 万次行程,通过无缝、安全地运输药品提升 了运营效率减轻员工负担。

可以看到较早开发的护理机器人产品已经针对物品传递、病患移动等场景动作有了一定成 熟度,随着后续相关的研究工作持续推进,机器人应用的成熟度进一步提升。例如早稻田 大学团队在 2024 年提出了提出了一种基于深度学习的架构,用于能动态调整关节刚度的 类人机器人。主要基于深度神经网络架构,运用视觉和躯体感觉注意力机制,生成涉及不 同交互力序列策略的双臂移位动作,基于阻抗控制的直接示教,使机器人在对非目标区域施加适度作用力,同时避免过度施压。

目前越来越多的机器人厂商开始布局康养机器人赛道: 1)傅利叶子品牌傅利叶康复专注康复机器人的研发和产业化,涵盖了上、下肢康复机器 人、运动与平衡训练系统等多款产品,通过不同类型的机器人协同工作提供全方位的康复 方案,覆盖从运动功能康复到认知功能训练的多方面需求。

2)25 年 5 月 21 日以“智能科技·重塑康养未来”为主题的具身智能康养机器人协同发 展大会在上海徐汇召开,华为、优必选、创耀科技、麦迪科技等科研机构和企业的负责人 出席了会议,具身智能康养协同发展机制正式启动,有望加速康养机器人技术研发、应用 推广与生态共建。

3)亿嘉和面向康养、家居场景推出 RK100 型机器人,具备了更强的与人交互能力。通过 力感知与力反馈交互技术,其能精准感知老人握手力度,实时自适应调整搀扶动作;依托 仿生触感皮肤,可分辨衣物材质,自动匹配定制化清洁方案;借助多模态情感识别技术, 能捕捉用户情绪变化。

已经发布的产品性能也在快速迭代,1X 机器人最新发布了 Redwood 更新,Redwood 是能够 执行端到端移动操作任务的 VLA 模型,能够完成为用户取物品、开门以及在家中环境导航。

为了能够驱动 EVE 和 NEO 平台(1X 推出的两款机器人),Redwood 融合了预训练语言的嵌 入、预训练视觉 transformer 的视觉 tokens、关节位置和力的本体感知嵌入。这些信息 会经过多个 transformer 模块,提取出一个潜在表示向量,借助扩散策略,将该表示解码 为 EVE 或 NEO 的动作。

Redwood 为 1.6 亿参数规模,但能够泛化到训练数据中未出现过的物体处理,强化了家庭 场景的应用。全身控制与多接触操作能力也让机器人能完成更接近实际家庭场景中的操作 任务,将移动和操作结合起来,同时 Redwood 可同时规划导航和操作行为,让机器人具备 更强的实际完成家务的能力。

2025 年 6 月 9 日工信部、民政部发布《两部门关于开展智能养老服务机器人结对攻关与 场景应用试点工作的通知》,其中提到“在家庭、社区和养老机构等场景中试点应用,在 应用验证过程中完成产品迭代升级,应用验证周期不少于 6 个月。居家养老服务机器人产 品需完成不少于 200 户家庭应用验证,部署不少于 200 台套;社区和机构类养老服务机器 人产品需完成不少于 20 个社区或 20 家养老机构应用验证,部署不少于 20 台套。”后续政 策支持力度有望持续加大,加速康养机器人产业化落地节奏。

2.4 物流:国内外企业积极探索应用,解决拆零拣选等环节工作量大痛点

物流行业经过多年自动化升级,整体已经有了较高的自动化程度,尤其是仓储、传送、分 拣等环节。

在此基础上,物流装备公司产品持续迭代,推出了壁虎料箱机器人系统、自动播种机等进 一步提高自动化程度的产品。

但在物流作业场景中,仍有大量环节需要人工参与,尤其是拆零拣选环节,在物流中心是 作业成本最高、人力耗费最大、时间占用做多的工作,工作量约占整个仓储作业的 40%以 上。

目前通过将人到货优化为货到人降低了拣选环节的人工作业量,拣选人员不需要再在拣选 区域走动而是直接在自动拣选系统拉出的货箱中进行拣选,但依旧依赖人工完成最终的拣 选工作。尤其是在电商、定制化需求的推动下,拣选环节的自动化作业受到 SKU 数量、产 品包装等因素的影响,在大模型技术快速发展的情况下,未来通过机器人实现完全的自动 化拣选大势所趋。

根据 Agility Robotics 数据,美国仓储、物流和制造行业有超过 100 万个材料搬运岗位 空缺,机器人可以有效填充这些空缺。

从数据角度看,目前有越来越多的物流装备公司开始布局机器人领域,可以开放自己的产 品作为机器人真机数据获取的训练场景,同时也有望加速机器人产品向电商、物流企业进 行应用获得更多训练数据。

全球物流巨头 GXO 也在积极探索机器人应用,目前与 Digit、Reflex、Apollo 均达成了合 作。

从产品角度看,目前已经有较多机器人厂商推出了针对物流行业应用的机器人产品,例如 Aglity Robotics 推出的 Digit 机器人产品已经经过了多次迭代产品不断升级。

Digit 采用了难度更高的双足方案,2021 年发布的《Robust Feedback Motion Policy Design Using Reinforcement Learning on a 3D Digit Bipedal Robot》基于 Dight 机 器人应用使用强化学习方案,在模型未知的情况下实现了机器人在不同地面情况的稳定行 走。

Digit 目前主要针对物流、制造业搬运场景,2024 年 6 月在 GXO 工厂投入商业化运营。 Aglity Robotics 自 2020 年就开始实现了量产,目前正计划将生产规模扩大到 10000 台/ 年。

也有例如 Reflex Robotics 推出的轮式机器人解决方案,能够完成例如分拣、搬运、打包 等物流行业常见工作内容。

Figure 从开始在物流行业部署 Helix 以来,模型的性能有了明显提升,距离实际应用更 进一步。

性能的提升主要来自于系统 1(双模型中更小的模型)视觉-运动策略的针对性优化, Figure 引入了用于记忆和感知的新模块,让控制策略更具情境感知能力且更稳健。这些 增强功能使 Helix 能够随着时间的推移更好地感知周围环境状态,知晓自身的操作情况, 对初始部署时建立的视觉与控制基础起到补充作用。

其中一方面性能的提升来自于训练数据量的增加。

另一方面来自于添加立体视觉、引入视觉记忆等架构特征来提升模型性能。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告