现有IP如何满足XR芯片需求?

最佳答案 匿名用户编辑于2023/07/03 16:18

如果你对该问题感兴趣的话,推荐你看看《2023扩展现实设备芯片需求白皮书》这篇报告,下面是部分摘录的内容,具体请以原报告为准。

1.CPU

目前移动端对 CPU 的需求越来越高,Arm CPU 的性能也在每年不 断提升,除了在架构上的升级外,每年 CPU 的性能也在不断增长,以 应对不断增长的计算和性能需求。尤其对扩展现实领域,对 CPU 的计 算架构和微架构都提出了很大的挑战,既要兼顾性能来提升用户体 验,也要有强大的功耗控制能力,以应对未来扩展现实小型化以及轻 量化的趋势。

Arm CPU 的架构这几年从 V8 全面过渡到 V9 的时代,除了每代增 加性能外,也提供了先进的 ML 运算能力以及 DSP 能力,来为未来扩 展现实的 workload 的支持提供可能性。

从最早 V7、V8 时代的 NEON™ SIMD 的引擎到现在 V9 的 SVE2, Arm 对未来的 SIMD 的 workload 的理解有了一个重新的定义。有了 SVE2 的加持,用户或者软件开发人员可以更多的依赖于编译器去做 自动的向量化而不再需要通过传统 NEON 手写汇编的形式,进一步加 快软件开发者开发程序的效率;同时,SVE2 在不同平台上的部署可 以做到无缝的迁移,开发的基于 SVE2 的程序,都可以做到无缝的迁 移,不需要重新编写,也为未来扩展现实应用的云端开发部署提供了 极大的便利,极大地提升了未来扩展现实应用的开发部署效率。更进一步的,SVE2 还额外增加了很多 DSP 指令的支持,以及更精细的 SIMD 计算的控制编程模型,为未来的扩展现实的应用算法的实现以及部署 都提供了良好的支撑。

同时,Arm 每代 CPU ML 运算能力的提升也源自于 Arm 架构的持 续升级,从 Arm® v8.4-A Dot product,Arm® v8.6-A Int8 & BF16 Matmul,Arm® v8.6-A Bfloat16 到 Arm® v9-A SVE2 的这些架构特性 的引入,都对 ML 的性能提升有很大的助益,相信未来对扩展现实算 法,特别是对一些感知,融合交互算法的性能提升都有很大的帮助。

用户的隐私以及安全保护一直是 Arm CPU 重点工作的方向,在 Arm V9 架构上引入的新的安全隐私保护机制,无疑对未来虚实现实 资产以及用户隐私的保护提供了一个强有力的支撑。

Arm CPU 除了 CPU 核心本身之外,其基于 DSU 所实现的 DynamIQ™ 大小核方案,也对未来扩展现实多样的性能需求以及功耗控制提供了 灵活和强大的硬件支撑。

最后,Arm CPU 强大的生态以及软件支持,可以快速的帮助用户 去开发基于扩展现实的应用,去实现自己的想法。

在一个典型的扩展现实芯片里,一般采用大核+小核的方式,目 前 Arm 可用于移动终端设备的 V8 架构最新大核是 Cortex®-A78,小 核是 Cortex®-A55,V9 架构最新超大核是 Cortex®-X3,大核是 Cortex®-A715,小核是 Cortex®-A510。

2.GPU

对于扩展现实来说,对 GPU 的需求要求很高。我们可以看到目前 的扩展现实的用户体验都或多或少和 GPU 的性能息息相关。对于扩展 现实这个市场来说,GPU 往往要应对高分辨率以及高刷新率的渲染, 除了 GPU 性能要足够强大以外,对其功耗控制以及散热的管理也同样 重要,这些也会对用户的最终体验以及长时间佩戴有很大影响。

为了解决扩展现实的痛点,Arm 的 Mali™系列以及 Immortalis™ 系列 GPU 在硬件以及软件上加了很多新的功能来支持这个市场。首 先,Arm 的 Mali GPU 支持 Multiview 的 extension,可以同时去渲染 左眼和右眼的图像。并且,Arm 的 Mali GPU 在注视点渲染上也做了 增强,在降低 GPU 的 workload 的同时去提升系统的能效,并且可以 有效地和眼动追踪相结合,来进一步提升 GPU 的能效。

对于扩展现实而言,MSAA(Multisampling Anti-Aliasing,多 重采样抗锯齿)尤其重要,因为用户需要近距离的观看屏幕,渲染上 细小的瑕疵都能被用户捕捉到,Arm GPU 原生强大的 MSAA 算法,可 以在保证性能的同时提升渲染图像的质量,最终提升用户观感。

3.NPU

在扩展现实芯片中,NPU 可用来实现算法加速,包括物体检测、 识别、眼球追踪、插帧、超分等。通过算法与硬件的结合,可以将一 部分原本由软件运行的任务交给 NPU 硬件加速,大大提高运算效率。

Arm China 的“周易”NPU IP 是针对深度学习的 AI 专用处理器, 采用可编程“周易”架构,支持 从 1 TOPS 到 上百 TOPS 的算力配 置,提供更高的精度和灵活性,可支持多种数据精度融合计算。“周 易”NPU 可针对扩展现实场景做优化,可满足扩展现实运算中对插帧 等需求的支持,同时采用 i-Tiling 技术大幅减少带宽需求;支持 int4/int8/int12/int16/int32, fp16/bf16/fp32 等多种数据格式, 可实现多精度融合计算;支持 TSM 任务分拆和管理技术,充分发挥 各个计算单元效能;支持自定义算子,满足各种模型部署需求;支持 定制差异化 AI 解决方案。同时“周易”NPU 提供一套完整的人工智 能软件方案,使开发者可以方便、快速地进行算法移植和调试;支持 主流的人工智能框架,如 TensorFlow、Caffe、ONNX、PyTorch 等模 型;提供多种开放接口,支持用户模型和自定义算子等开发和调试; 支持 Android、Linux、RTOS 、QNX 等不同 OS;支持 TVM、Arm NN 等 SoC 异构计算,从而有效使用 CPU、GPU、NPU 等计算资源;Bit 精 度的软件仿真平台,便于算法移植和部署。

4.VPU

视频编码技术自诞生以来,不断更新换代,致力于更优的编码效 率和压缩效果,而更高的压缩效率来源于更高效的编码算法。假设使 用 35:1 H.264 编码来存储,每秒所需要的速率为 1423.82Mbit/35 = 40.68Mbit/s,也就是 40M 左右带宽即可满足传输要求。

Arm China 的“玲珑”视频处理器是一款为满足主流市场不断增 长的 4K/8K 实时编解码需求而设计的高效视频处理器。这款全新视 频处理器针对主流市场的视频流媒体技术进行了大量投入,通过一系 列智能权衡实现了极大优化,为所有合作伙伴提供灵活的组合和选 择。“玲珑”V6/V8 视频处理器的设计旨在确保整体系统的成本、功 耗和面积最优化,能够显著节省存储空间,同时在更小带宽内实现最 高品质。“玲珑”视频处理器系列还提供多实例、全方位的软件及固 件工具。

5.DPU

有鉴于 VR 带动市场对高级设备屏幕的需求逐渐上升,4K 以上分 辨率以及更高的帧率,衍生出不少系统效能方面的难题。对此,采用 专用硬件组件 DPU 来执行合成、旋转、高质量缩放以及其他图像处理, 可有效降低 GPU 的工作量。和 GPU 必须进行多次读取、处理与输出, 造成整体功耗较高相比,DPU 可以处理完多项任务后进行压缩与一次 性输出,有效降低系统功耗。ASW/ATW 相关功能如果放在 DPU 上做, 可以节省带宽,降低延迟,也是未来的一个发展方向。

Arm China 的 D71 显示处理器可支持 4K120FPS 的画面输出。 Mali-D71 和 Hardent 公司的 VESA DSC 组合解决方案,可以在既定的 移动功耗范围内,通过视觉无损压缩将传输带宽减少 3 倍,从而实现 更加身临其境的 VR 体验。

6.ISP

在扩展现实芯片中,ISP 要负责对接入的多个摄像头数据的处理, 4 个 SLAM 算法摄像头,1 个 See Through 摄像头,2 个眼球追踪红外 摄像头,这就要求 ISP 至少支持 7 路摄像头数据输入。随着对算法精 度要求的提高,需要的摄像头数量和分辨率都会进一步增加。

Arm China 的“玲珑”i5 ISP 具有高画质、低延时、高兼容性、 易扩展、面积精简和低系统带宽等特点。硬件架构灵活可配置,客户 可自行选配可选模块进行集成;其多元的工作模式可兼容线性、原始 /压缩的 HDR 数据,支持单路及多路摄像头输入,支持超高分辨率分 屏处理;DMA 接口数据输入输出模式可配,可在 ISP 多个节点输出 不同格式的数据;软件 API 接口丰富,图像效果调试流程简易清晰; 提供了丰富的软硬件参考设计,如标定工具、调优工具和 MIPI 转 DVP 数字电路等。