什么是具身智能？什么是 Robot GPT？ - 问答集锦

最佳答案由匿名用户编辑于2024/01/11 17:12

想了解更多相关内容，可以下载报告《机器人行业专题报告：回答人形机器人八个问题》查看，以下内容都是根据该报告总结的，仅供参考。

1.什么是具身智能？

根据证券时报报道，英伟达创始人黄仁勋在 ITF World 2023 半导体大会上表示，AI 下一个浪潮将是“具身智能”，其描述的“具身智能”是指能够理解、推理并与物理世界互动的智能系统，包括机器人技术、自动驾驶汽车，甚至是聊天机器人，它们会更聪明，因为它们能了解物理世界。根据上海交大教授卢策吾在机器之心 AI 科技年会上，发表了主题演讲——《具身智能》，具身智能是智能科学的一个基础问题，是指具有身体体验的智能。从认知角度看，人类是第一人称视角的智能，但给机器喂很多数据进行学习，属于第三人称的智能，比如给机器很多盒子，并且标注这就是盒子，然后机器就会知道这种模式是盒子，但机器并不是通过体验知道这是盒子的。

根据《具身智能》，主动猫是具身智能，旁观猫是旁观智能。1963 年的一个实验能一定程度展示两者的区别，一只猫被绑起来，只能看这个世界，与其连接的另一只猫则可以主动去走。被动的猫是一种旁观的智能，而主动的猫是具身的智能，实验的最后，主动体验的猫学会了正常行走，但旁观的猫并没能获得行走能力。

具身智能涉及多学科，是系统性工程。上海交通大学卢策吾教授在机器之心AI 科技年会上发表主题演讲《具身智能》提到 1950 年图灵在他的论文《Computing Machinery andIntelligence》中首次提出了具身智能的概念，概念提出了几十年了直到近几年才比较热门，原因是它涉及到众多的学科，当时很多学科都不是很成熟。硬件、软件还有各种触觉传感器也不够成熟。而到了今天，各个学科都可以聚到一起来做这么一个宏大的系统。在这样的情况下，我们才有可能推动这个方向进一步发展。

根据《具身智能》，具身智能包括 3 个模块：具身感知、具身想象和具身执行，AI+机器人正是“具身智能”当前的落点。工业机器人主要根据控制系统发出的指令信号控制机器人主体完成任务，主要依赖于机器人的执行层。与工业机器人不同，具身智能机器人若能像人一样与环境交互、感知、决策、完成任务，将不得不提升感知层和认知层的能力。卢策吾教授提出PIE方案，认为具身智能包括 3 个模块：具身感知（Perception）、具身想象（Imagination）和具身执行（Execution），有望加速推动具身智能落地。目前看来，AI+机器人或许正是“具身智能”当前的落点。

2.什么是 Robot GPT？

ChatGPT 为人工智能提供了语言载体，人形机器人将提供物质载体，实现人工智能从“想到”“说到”到“做到”的跨越。根据钛媒体，全球首家 5G 云端智能机器人运营商达闼机器人公司即将推出首个机器人制造领域的多模态认知大模型，名为 RobotGPT。其创始人、CEO黄晓庆表示，如果把谷歌 DeepMind 推出的“阿尔法狗”（AlphaGo）当作人工智能的原子弹的话，ChatGPT是AI领域的氢弹，作为“两弹一星”的星，云端智能机器人则是人工智能时代的运载火箭，人工智能的载体，将成为第四次工业革命的最重要标志。

ChatGPT 本质是文字接龙，基于 ChatGPT 模型思路可构建RobotGPT框架。根据斯坦福大学 2023 年最新论文《RobotGPT: From ChatGPT to Robot Intelligence》，基于和ChatGPT类似的工作原理构建了 RobotGPT 的框架。根据 Open AI 官方对 ChatGPT 原理介绍，ChatGPT是在GPT （Generative Pre-training Transformer）模型的基础上通过改进优化得到的。GPT是一种大型语言模型，能够生成各种不同的文本类型。GPT 模型思路是让AI 在通用的、海量的数据上学习文字接龙，即掌握基于前文内容生成后续文本的能力。然后人类引导接龙方向即有监督训练初始模型，对特定问题告诉 AI 人类认可的答案。

Reward 模型进行强化学习，进一步优化 ChatGPT 的输出质量。根据OpenAI 官方对ChatGPT 原理介绍，第二步训练 Reward 模型，人的时间精力有限，但AI 的精力是无限的，研究人员让 GPT 对特定问题给出多个答案，由人类来对这些答案的好坏做排序，基于这些评价数据，研究人员训练了一个符合人类评价标准的 Reward 模型。第三步基于reward 模型使用PPO强化学习优化 GPT 模型，即 AI 基于评分去调整参数以便在下次问答中获得更高分。

RobotGPT 的原理可理解为由 ChatGPT 的文字-文字接龙，变为了文字/语言/各类传感器接收的信号-动作接龙。根据《RobotGPT: From ChatGPT to Robot Intelligence》，人的八大智能包括语言智能、数学逻辑智能、空间智能、人际智能、内省智能、音乐智能、身体运动智能、自然认知智能，机器人实现不同的智能需配备不同传感器、自然语言处理能力和人工智能算法。在设计的RobotGPT 框架图，思路类似于 ChatGPT，同样是通过深度学习和强化学习构建端对端AI 大模型。

目前 ChatGPT 是单模态，RobotGPT 需要多模态模型。根据钛媒体报道，达闼机器人公司 CEO 黄晓庆表示，ChatGPT 的出现，恰恰证明机器人需要一个云端大脑。因为ChatGPT是不可能装在一个小小的计算机里的，它必须装在一个云里面，变成个云服务。ChatGPT目前本身是单模态的，所以它无法支持机器人。而基于多模态的人工智能大模型要能够支持多模态，文字、语言、视觉、运动都要支持，这就是我们在做的 RobotGPT。

参考报告

机器人行业专题报告：从ChatGPT到RobotGPT，回答人形机器人八个问题.pdf
- 查看报告