虚拟人制作最核心的流程是建模、驱动、渲染,这三个流程也是最具挑战性的。具体的 制作步骤:
目前建模方式主要分为三种: (1)手工建模:使用广泛,但周期长; (2)图像采集模型:通过照片还原人脸3D结构,速度快、但精度低,模型仅限于面部 ;(3)仪器采集模型:精度可达0.1毫米,但成本高。
目前虚拟人的驱动方式主要分为计算机驱动以及物理驱动。
计算机驱动;计算驱动型数字虚拟人技术是近年来多模态技术和深度学习发展的技术 集 大成者。
在计算机驱动型中,可通过智能系统自动读取并解析识别外界输入信息, 根据解析结果 决策数字人后续的输出文本,然后驱动人物模型生成相应 的语音与动作来使数字人跟用户互 动。数字虚拟人的语音表达、面部表 情、具体动作将主要通过深度学习模型的运算结果实时 或离线驱动,在 渲染后实现最终效果。

制作过程中最重要的步骤在于对各类驱动模型的训练,充足的驱动关键 点配合以精度较 高的驱动模型,能够高还原度的复原人脸骨骼和肌肉的 细微变化,得到逼真的表情驱动模型
物理驱动,具体实现方式是光学式、惯性式、电磁式及基于计算机视觉的动作捕捉。
1)光学式动作捕捉 :光学动作捕捉的原理是首先跟踪、识别并命名目标身上各反光标记点,得出目标的基本 骨架,再通过空间中多个镜头对标记点位臵进行持续跟踪,完成对运动的记录。光学动作捕 捉精度较高,但需通过相机的位臵角度建立三维空间坐标,对环境要求高,软硬件造价高昂 。
2)惯性式动作捕捉: 惯性动作捕捉主要使用装备于人体各主要骨骼节点上的惯性传感器,来完成数据采集, 最后通过处理建立运动的三维模型。惯性传感器组成部分有集成加速度计、陀螺仪和磁力计 等,可收集运动目标的各部位速度、姿态、方位等数据。惯性动作捕捉技术高度适应不同的 环境,成本相对较低,使用便捷,能在某种程度上弥补光学动作捕捉的缺点,但精度较低、 连续使用易产生累积误差。

3)基于计算机视觉的动作捕捉 :基于计算机视觉的动作捕捉技术使用多个不同角度的高速相机对目标进行拍摄,计算机 视觉基于拍摄到的二维图像、三维形状特征还原各关节点运动信息。该类动捕技术主要使用 光学高速相机,动捕对象通常不需穿着设备,精确度高,成本相对低廉,近些年兴起后获得 青睐并在不同的应用端逐步推广;但计算量庞大、受环境影响大。
其本质区别是在目前发展状况各项局限下,对时效性和图形质量间的取舍。离线渲染技 术不关心完成速度,这类渲染技术主要应用于影视动画等方面,其对真实度、精细度有较高 要求,可使用更多的计算资源。实时渲染技术重点关注交互性与时效性,适用于用户交互频 繁的场景,如游戏、虚拟客服、虚拟主播等,此类场景要求快速创建图像。目前图形生产硬 件和可用信息的预编译等提高了实时渲染的性能,但其质量仍然受限于渲染时长以及计算资 源。随着硬件与算法的提升,实时渲染技术已具备较强的综合表现实力,预计将逐步普及。
未来虚拟人成本有很大的降低空间,主要依赖于技术进步。云计算可以帮助降低建模和 渲染阶段的算力成本,5G通信技术降低网络传输成本,再加上AI、算法、机器训练、大数据 的配合。未来或将出现综合的虚拟人制作引擎,有效地将各类技术串联应用,大幅度降低虚 拟人制作门槛。目前已有部分平台层公司致力于发展虚拟人制作引擎,提供更有效率的制作 平台服务。