针对超高清直播课堂所面临的视频高质量编码、音频清晰采集和 音视频传输低时延等问题,联想使用如下创新技术解决这些挑战。
第一,基于成熟的 WebRTC 框架和 RFC 7798 标准,新添压缩率更 高的视频格式的支持,能有效提升画面质量。WebRTC 是事实上的实时 音视频通信标准,在实时音视频的框架集成了优秀的算法来解决弱网 问题,丢包问题和网络抖动问题。通过将新的视频压缩编码格式引入 WebRTC,提升了 WebRTC 的视频质量,减少了网络带宽的需求。
第二,针对大空间、全方位、自由式的语音交互方式所面临的挑 战,开发了物理介质环境自适应的音频 AI 处理算法,实现异地之间 沉浸式、自然语音交互。AI 技术是一个基础工具,可以用于音频处理 的方方面面。比如检测当前音乐、啸叫等类型,也可以进行常见的音 频 3A 增强处理,甚至进行空间音频编码与渲染。通过把 AI 引入对声 音的噪声、混响、回声、杂音等处理,在鲁棒性、语音保真等方面得 到很大的提高。同时使用 AI 对说话人的位置进行空间定位,在特定 的方向进行声音增益,实现了大空间的任意位置的语音采集。
第三,统一抽象的视频编解码框架,充分发挥了设备潜能,提升 了编解码速度,降低了音视频端到端的时延。WebRTC 本身在视频编解 码方面对视频格式支持有限,原生都是使用软件进行编解码。当视频 分辨率增大到 4K,码率增大到 25Mbps 时,编解码时延超过 150ms。 而业界有些的开源实现项目都是基于特定的硬件来实现自身平台的 视频硬件编解码。通过对视频编解码的抽象,支持了业界所有的 GPU 型号,并与 WebRTC 对接,从而加快了视频编解码速度,降低了端到 端的时延。