2024年Apple Vision Pro专题分析：Apple Vision Pro入华，到底会带来什么？

国投证券2024/06/28
举报

一、拆解硬件中最关键的计算模块、光学显示模块

核心计算模组

Vision Pro的核心计算模组由主板、散热架&散热风扇，电源线、多种连接FPC、铝合金摄像头支架，多种摄像头、摄像头连接FCP，按键，射频天线，超大light连接器，红外放光LED等组成。

Vision pro的主板采用的多层硬板，为加强其局部可弯曲的能力，是使用了局部扣板层的工艺，该工艺从技术难度上看非常高，成本也非常高，通过显微镜可观察到主板有12层，中间可弯曲部分只有中间6 层，并非柔性板。 Vision Pro的核心计算单元包括M2和R1芯片组。 M2芯片：M2，作为苹果自家研发的处理器，它将CPU、GPU、I/O 等集成在同一个芯片中。M2芯片可以提供强大的处理能力，同时由于其集成度的特点，它能够在保证性能的同时，大大节省了能源，使电池寿命更长。另外，M2芯片的出现，也使得苹果的设备在性能提升的同时，体积可以进一步减小，为用户提供更出色的移动设备体验。 R1芯片：R1芯片是专门为处理机器视觉和机器学习任务设计的。它能够实时分析和处理来自设备上各个部件的数据（如摄像头、传感器等），并根据处理结果做出相应的响应。例如，通过识别用户的特定运动，自动调整屏幕的方向；或者通过分析摄像头捕获的图像，提供丰富的AR体验等。总得来说，R1芯片使设备具有了更强大的"理解"和" 学习"环境的能力，进一步提高了用户体验。

Apple Vision Pro采用2个非常大的Nordic定制静音风扇，功率2W左右，占用了很大空间，可见苹果在极致空间下为整机散热做出来很大的牺牲。

1个dToF LiDAR激光雷达，沿用iPhone 后摄的dToF LiDAR形式，通过测量激光脉冲从发射到接收的时间来计算距离，用于获取高精度的三维深度信息支持3D拍摄、空间重建、空间的深度感知与定位； 1组结构光相机，与iPhone的前置结构光Face ID类似，Apple称为TrueDepth摄像头，利用结构光原理来获取场景的深度信息，通常通过投射特殊编码的光斑并通过相机捕捉来计算深度，支持 FaceTime应用的面部扫描功能和前向区域的精细手势追踪；主摄像头：2个前向的650万RGB摄像头，支持前向3D视频拍摄和 VST；侧向摄像头：4个向侧前方的广角红外摄像头，可以覆盖更广泛的场景并捕捉红外图像，支持6DOF追踪。

国内外厂商空间计算能力排序（具体评分）

我们在报告《空间计算是一种时代颠覆且必然到来——以Apple Vision Pro为基准，围绕空间计算的定性分析与定量比较》中引入了 Gartner魔力象限理论以构建对XR厂商的评分体系，具体而言以企业对未来的远见，和企业目前的执行能力作为横纵坐标，在增长速度快且提供商差异化明显的市场中，提供了四种类型企业的图形化竞争定位：领导者（Leader）：能够很好地实现当前的愿景，并为明天做好准备。远见者（Visionaries）：了解市场的走向或有改变市场规则的愿景，但尚未很好地执行。利基玩家（Niche Players）：成功地专注于一小部分，或者不专注，并且没有超越其他人的创新或表现。挑战者（Challengers）：如今表现良好，或者可能主导很大一部分市场，但并未表现出对市场方向的理解。 Apple毫无疑问被划分入领导者（Leader）象限，Meta、Pico、Valve则被划分入挑战者（Challengers）象限，Pimax归属远见者（Visionaries）象限，Varjo、HTC、YVR、DPVR属于利基玩家（Niche Players）象限。

超高清显示：主流产品分辨率正在由4K向8K前进

8K超高清显示的壁垒在软硬件的整合及调通能力上。从硬件层面看，单个配件支持8K，并不代表整个系统支持8K，整机厂商需要用Cost effective的方式打破厂商能提供的相对保守和安全的解决方案，挖掘和利用上游厂商提供配件的物理性能极限，来达到超高清显示效果。从软件层面看，超高清显示需要通过多个功能模块辅助下的核心算法优化来达成，包括压缩算法、预测算法等。 Apple Vision Pro发布后，在清晰度上为VR产品设立了新的标杆。下图显示清晰度天梯图的产品/厂商位置，一定程度上也反映了现有产品/ 厂商在VR能力方面的排序。按照消费电子的逻辑，提升用户体验是第一位的，因此，超高清显示会是一个确定的发展趋势。

二、空间计算的概念与Vision OS操作系统

VisionOS——第一个为空间计算而设计的操作系统

visionOS 是专为 Apple “空间计算”而专门设计的第一款操作系统。这种计算模式与我们最熟悉的两种计算模式（桌面与移动计算）区分开来。空间计算的理念是将工作环境/应用程序漂浮在面前。将其视为多个并排的窗户，但不是在桌面上，而是在半空中。架构层面，visionOS 与 macOS 和 iOS 共享核心模块，但增加了一个 “实时子系统 (real-time subsystem)” 用于在 Apple Vision Pro 上处理交互式视觉效果。实时子系统之上是3D引擎、空间音频引擎、注视点渲染器、空间开发框架等。

理解VisionOS/空间计算的基础概念

进入 visionOS 后，默认情况下，用户的视觉出现在公共空间（Shared Space），也就是，此时类似于桌面，用户拥有众多桌面视图中的一个。用户可以打开一个或多个在空间中作为平面存在的窗口（Windows）。它们支持传统的视图和控件，但也支持 3D 内容，这些内容可以存在于具有 2D 内容的窗口中。例如，在 CAD 程序中，对象可能是 3D，但工具栏可能是 2D的。

当用户视觉获取焦点，并且点击了视图后，画面会从平面转入立体，也就是从窗口（Windows）进入体（Volumes）。应用程序还可以创建三维空间，这些可以包含对象和场景。关键区别在于体积可以在 3D 空间中四处移动，并且可以从各个角度查看。这是查看商店橱窗展示与绕着汽车走动并通过前窗、后窗和侧窗窥视之间的区别。

对于想要做完全沉浸应用的开发者，可以创建一个专用的完整空间（Full Space）。这就像游戏一样占据整个屏幕，在 visionOS 体验中，该屏幕是完全沉浸式的，应用程序、窗口在完全沉浸式的环境中运行。

三、早期内容与应用形态：游戏、视频流、生产力

游戏：交互体验革新带动玩法创新

早期的游戏主要包括Apple Arcade的订阅游戏、ipad/iPhone的兼容游戏、以及基于Vision Pro开发的原生游戏。 Apple Arcade：两款热门游戏《NBA 2K24 Arcade Edition》和《Sonic Dream Team》可以在任意大的屏幕上玩，并提供令人惊艳的音频和对流行游戏控制器的支持。原生游戏：以轻度游戏游戏为主，如《超级版水果忍者》、《what the Golf》；也不乏《Demeo》这样的中重度游戏。兼容游戏：以《崩坏：星穹铁道》为代表的重磅游戏也发布了Vision Pro版本。

视频流：真正实现沉浸式观看

沉浸式视频观看将是Vision Pro的核心功能。Apple TV+、Disney+、Max （HBO Max + Discovery）均支持Vision Pro，Apple TV的全新的Apple Immersive Video将带来180度3D 8K空间音频内容。演示视频中展示了独特的沉浸式电影交互体验，点击影片《曼达洛人》介绍页旁的按键后，快速穿越到宇宙中，还能同时通过多屏查看电影相关的信息，包括载具、关键角色、星球等信息，用户仿佛在驾驶舱内真实操作飞船。观看体育赛事也能获得沉浸式体验。点击ESPN+（美国体育电视节目）频道后，除了能在屏幕正中间观看橄榄球比赛的核心赛事，还能看到屏幕周围的虚拟部件，可显示各种信息，例如实时得分、获胜概率、球场预览、多视角直播、球员信息、其他赛事等。用户还能坐在沙发上沉浸观看《国家地理》频道；通过互动式体验感受漫威多元宇宙的魅力；与经典迪士尼角色米奇进行交互。

四、下一代通用内容格式：空间视频&空间照片

2D转3D影像的最后一公里

1月22日，TikTok发布了一项新型AI技术——“Depth Anything”，预示着2D影像转3D有望出现突破。2D视频“一键转3D”如果实现，将大幅推进XR产业的发展。一种先进的单目深度估计（MDE）技术。这项技术能够从单张图片中提取出物体的深度信息。它使用了一个庞大的 AI训练数据集，包含了150万个标记过的图像和超过6200万个未标记的图像。如此大规模的训练不仅显著提升了其精度，还有效减少了AI模型中常见的泛化错误。

TikTok发布的“Depth Anything”技术在提升深度图的质量方面取得了重大突破，意味着2D影像转化为3D影像的“最后一公里”问题有望得到解决。此技术的应用将使得TikTok平台上现有的海量2D影像能够轻松转化为3D影像，让普通手机拍摄的2D影像“一键转3D”。这将为 Vision Pro版TikTok带来海量的3D视频源。

五、Vision Pro是AI落地的一类空间

AI助力空间计算，Apple再次定义交互

空间计算是在三维的基础之上，连通及融合虚拟世界与现实世界的一个全新的计算范式，其背后需要大量的AI加持，一方面需要AI辅助渲染生成现实世界的数字孪生版，另一方面则需要AIGC满足对内容量的需求。 Apple在历史上曾多次定义人机交互体验，如Mac、iPhone等， 2024年2月2日推出Vision Pro，售价为3499美金，再次定义交互模式，且用自研M2芯片，支持Vision Pro图形AI渲染所需算力。

趋势：【 AI模型】向【边缘侧】部署

当前的一大趋势就是AI模型会向边缘侧的硬件终端去部署。苹果 Ferret→iPhone/Vision Pro；Meta LLaMA→Quest；谷歌Gemini→Pixel Pro/安卓系统，微软&Open AI GPT→AI Pin。像微软、谷歌有大模型先发优势的公司，在加强硬件终端的布局；像苹果有智能硬件优势的公司，在努力做自己的AI模型。最后的结果可能是殊途同归，科技巨头们都在做一个部署了AI模型的真正的智能终端设备。未来有可能是多种商业模式与多种产品形态共存在终端设备上，有的可能像卖软件，有的是操作系统自带的AI模型。终端设备的1）AI运算由于基数大，边缘计算会超过云计算的需求；2）终端直接产生数据，优化模型也提升用户粘性； 3）商业模式相比2B收费更为透明直接。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）