目前 AI 与物理世界的结合有两种层次:
第一层是将物理 AI 模型集成在机器人、自动驾驶等自主机器中,帮助自主机器感知、理解并在现实世界中执行复杂的操作; 第二层是运用生成式 AI 能力,创造输出更多的数据(构成物理体、物理场等)供模型进行大量的训练,以提升模型能力。
(1)物理 AI 完成与现实世界的交互。现有大模型的能力局限。基于互联网上大量文本和图像数据训练生成式 AI 模型(GPT、Llama 等)在生成人类预言和抽象概念方面已经满足需求,但是受其生成规则的限制,对于物理世界的理解有限,因此会出现生成的图片中,不符合显示规律的“扭曲”。 物理 AI 能够理解三维世界的空间关系和物理行为,核心是数据+理解。通过 AI 训练过程中提供更多物理数据来实现,数据主要包含与现实世界的空间关系和物理规则有关的信息。现阶段CAE/CAD 以及其他工业端软件厂商具备一定数据积累。
物理 AI 实现的难点在于建立一个可靠的物理模拟环境。自主机器需要在准确的物理环境中进行训练,因此重点是对于物理世界的模拟,这可以提高机器人在执行复杂任务时的效率和准确性。此外,由于自主机器执行任务过程中,会受到外部人类或其他物体不可控的干扰(无法模拟所有场景),因此需要即时的符合规则的反馈。
(2)生成物理数据以供训练。通过合成数据生成缩小仿真与现实之间的差距。制造业、零售业的工厂及物流公司成长到一定规模,需要众多的设备及数字化平台支持,以提升准确率且降低成本。因此往往需要管理复杂的工作人员互动、以及先进复杂的设备,通过数字孪生平台,可以实现工作流程的预设,以及应对不同状况下设备的最优行动。 构建生成式 AI 赋能的合成数据管线,弥补数据问题。借助 NVIDIA NIM 微服务和Omniverse Replicator等工具,开发者能够加速创建可靠、多样化的数据集来训练物理 AI,这有助于增强VLM 等模型的适应能力和性能。 通过与英伟达之前的物理仿真平台 Omniverse 整合,Cosmos 可以实现物理仿真与AI 生成的融合,生成符合物理逻辑的“高质量数据”。“这就像给机器人创造了一个数字孪生的训练场,它们可以在虚拟世界中不断练习和改进,然后再把学到的技能应用到现实世界。” 实现对未来状态的生成,大大解决数据量的瓶颈。该模型经过 2000 万小时视频训练,其模型的逻辑是通过对于过去的视觉观测序列和当前的扰动,预测生成世界的物理状态。此前自动驾驶汽车可能需要行驶数百万英里才能遇到足够多的边缘场景,但在 Omniverse 中,通过 Cosmos 的能力,可以快速生成和验证场景以供训练。

完成机器人和智能驾驶的训练及优化。Cosmos 作为一个基础性的 AI 模型,能够通过多模态的模拟生成不同的结论和结果,实现对复杂物理世界的实时理解和互动,实现物理 AI 的核心需求。
目前英伟达已经建立一套相对完整的物理 AI 使用流程,软硬一体化方案解释Nvidia 的下一代“软核心”布局: 构建虚拟 3D 环境(Omniverse):Omniverse 提供众多 API、SDK,开发者基于其他软件厂商的能力(包括 CAE、CAD 等),在平台上构建物理场景,并通过 RTX 渲染集成到仿真流程。生成和合成数据(Omniverse+Cosmos):Omniverse 提供 Replicator SDK 构建自定义合成数据生成(SDG)工作流。Replicator 具有内置功能,例如域随机化,允许在 3D 仿真过程中更改许多物理参数。此外,还可以使用采用 ControlNet 的扩散模型来进一步增强生成的图像。
训练验证(DGX):NVIDIA DGX 平台是一个全集成式硬件和软件 AI 平台,与基于物理的数据一起结合使用,通过 TensorFlow、PyTorch 等框架,以及 NVIDIA NGC 上提供的预训练计算机视觉模型来训练或调优 AI 模型。经过训练后,这些模型及其软件堆栈可使用 NVIDIA Isaac Sim 等参考应用进行仿真验证。部署(下一代机器人设备):将经优化的堆栈部署到 NVIDIA Jetson Orin 以及即将推出的新一代Jetson Thor 机器人超级计算机上,为类人型机器人或工业自动化系统等物理自主机器赋能。