ChatGPT、GPT 4.0 等大语言模型加速 AI、人机交互领 域发展。
ChatGTP 及 GPT4.0 等大语言模型引领自然语言处理技术发展,为人机交互、 AI 等领域带来革命性升级。大语言模型是人工智能领域中自然语言处理技术的重要 发展方向之一,是 AI 实现自然语言理解和生成能力的重要工具。2022 年 12 月 OpenAI 推出的 ChatGPT(基于深度学习、运用最先进的自然语言处理技术的大预 言模型)和 2023 年 3 月推出的 GPT 4.0(大型多模态模型)相继面世引起了广泛的 讨论和关注。ChatGPT 是 GPT 等大型语言模型的一个特殊应用,基于 GPT-3.5 模 型构建,在针对对话生成领域的任务上进行了微调,提高了模型在这个特定领域上 的表现。使得模型在生成对话时的流畅度、连贯性和逻辑性提升,以及生成结果更 加符合对话场景的语境和逻辑,更加自然流畅,更符合人类谈话交流的习惯和方式。
大模型的发展在 2018 年中期后呈现加速发展态势。2018 年 6 月,OpenAI 发 布 GPT 模型,使大语言模型领域开始受到广泛关注;同年 10 月,Google 发布了 BERT 模型,极大地推动自然语言处理技术发展。此外,2019 年中旬至 2020 年, GPT-2、T5 的推出也进一步加快其发展速度。 大模型具备五大能力,其中自然的沟通与多模态感知能力对智能家居最为重要。 ChatGPT、GPT 等大语言模型拥有:1)自然的沟通能力(通过自然语音处理技术); 3)多模态感知能力;3)运算能力;4)全面的专业能力(通过问答系统);5)动态 学习五大能力。考虑到 1)智能家居所处空间较固定,操作和控制任务已较固定和简 单;2)应用场景和具体实现方式对用户的直接程度。我们认为大语言模型五种能力 中的沟通能力以及多模态感知能力对于智能家居设备更为重要。随着大语言模型的 沟通能力更加自然以及多模态感知能力的持续提升,预计智能家居的多项能力将得 到提升。

大语言模型能够提升智能家居硬件设备的智能化水平、交 互能力。发展一:沟通能力更加自然。智能家居设备的控制和操作,需要先通过语音与 用户进行交互。自然沟通能力强的大语言模型,可以更加准确地理解用户语言中的 细节和上下文,帮助用户更快更准确地完成操作(例如用户可以通过自然语言命令 控制照明、电视等设备的开关、调整亮度和音量等功能)。未来随着 1)多模态信息 融入;2)引入更多的上下文信息/长时记忆;3)提高文本生成能力(eg.采用最新的 记忆增强型神经网络等自然语言处理技术),大语言模型的沟通能力将更加自然。
ChatGPT 使得智能家居设备语音交互的响应速度、准确性得到提升。智能家居 采用的语音交互技术是一种基于自动语音识别、自然语言理解、对话状态控制、对 话管理等技术手段,实现人机交互的技术。ChatGPT 所采用的 NPL 在驱动方式、上 下文感知、语言表达能力、精度、应用范围、灵活性上较传统 NPL 有了极大的升级。 ChatGPT 的自然语言处理技术(NPL)应用于语音交互可以提高其响应速度和准确 性,更加流程自然,充满人性化。
发展二:多模态感知能力提升使设备获取信息更全面。智能家居设备(例如中 控屏、智能浴室镜)不仅可通过语音进行操作,还可以通过其他模态进行交互,例如 图像、视频等。因此,在智能家居领域中,多模态感知能力的大语言模型可以帮助设 备通过多种方式获取信息,包括语音、图像、视频等,从而提供更准确的答案,提升 用户交互体验。GPT 4.0 推出,可以进一步提升设备的多感官感知能力,实现多种 感官输入的整合和协调(图像+音频+文本),从而获得更全面、更准确和更可靠的信 息。例如微软的 KOSMOS-1 和 OpenAI 最新推出的 GPT4.0 均为大型多模态模型。 例如:用户询问“哪里有空气质量好的公园?”问题时,1)智能家居设备可通 过语音识别技术将用户的语音转化为文本,理解用户的需求;2)设备可以结合用户 所在的位置信息和天气状况,利用互联网及公共数据库中的环保数据、空气质量数 据等信息,筛选出空气质量好的公园,并提供相应的地图和位置指示,方便用户前 往;3)设备可以通过图像识别技术,分析该公园是否绿化率高、无污染等,通过视 频展示公园的实际情况,让用户更直观了解该公园的环境和氛围;4)最终通过多种 方式获取信息和展示结果,设备可以提供最全面、准确的答案,提升用户交互体验。
多模态感知+传感器技术(人体、声音)提升设备的智能化水平(反馈信息的准 确性、灵活度)。家用智能传感器技术运作首先借助传感器通过感知语音、图像、手 势等,收集数据并将其转换为数字信号,在这一环节中使用多模态感知可以帮助不 同传感器的数据更好的融合,形成更有效的数据信号,使得后续的控制与反馈更加 精准,智能家居由被动智能变为主动智能。微软通过一系列丰富的试验,从语言任 务、跨模态迁移、非语言推理等评价 KOSMOS-1 这一多模态大预言模型,发现其在 以上各个任务完成中相比于单模态准确性、抗干扰性更高,更加灵活。
大语言模型未来或从三方面持续迭代,增强自身语言表达、逻辑分析能力。基 于 Transformer 的大语言模型可以通过大规模的无监督训练从海量未标注、无结构 化的数据中学习,获取语言的深层次结构和规律,从而在各种自然语言处理任务中 取得优异的效果,目前还在不断刷新着各项任务的性能。但现有模型存在着 1)缺少 外部知识指导;2)耗用大量资源、成本高;3)体积大、推导慢的问题,针对这些问 题,目前主要从 1)数据量增加;2)调整参数;3)模型优化三个方向改进,分别对 应了 1)数据知识增强;2)参数微调;3)模型效率优化三条迭代路径。预计未来模型还将持续发展,不断提高其自身的语言表达及逻辑分析能力。
大语言模型迭代的驱动因素包括:1)硬件设备升级(支持计算资源和储存资源 持续增加);2)数据的丰富与优化(模型知识增强);3)算法的优化与创新(提升 效率)。未来随着大语言模型的持续迭代,预计智能家居硬件设备的交互能力、智能 化水平将进一步提升。具体来看:
驱动一:硬件升级(芯片+服务器)支持算力增长。芯片和服务器可以处理海 量的数据,为语言模型提供算力来源。AI 服务器是 ChatGPT 的基础,随着计算 场景从 PC→云计算→边缘计算→AI 训练,服务器从通用服务器→云计算服务器 →边缘服务器→AI 服务器。芯片是 AI 服务器的基础,以 ChatGPT 为例,其 AI 算 力芯片泛指加速 AI 类应用,主要分为 CPU(中央处理器)、GPU(图像处理器)、 FPGA(现场可编程门阵列)、ASIC(专用集成电路)四类。其中 ChatGPT 的底 层算力芯片以高性能 GPU 为主,采用的是英伟达的 GPU A100。为提供 ChatGPT 庞大的算力支撑,已导入了超过 10000 颗英伟达 GPU A100。随着芯片朝着更快 速的计算能力、更低的能耗、更广的集成效果、更低的价格发展,推动服务器优 化,使得模型 1)训练效率提高(模型迭代加速);2)模型准确率和表现提升;3) 推理能力提升(响应速度加快)。

驱动二:数据质量优化(单模态→多模态)使得模型知识增强。如今 AI 垂直应 用场景呈现碎片化特征,单一模态小规模数据已无法满足其高准确率和跨领域应用 的要求。为满足聊天机器人所需要的预料训练数据需求,GPT-1 预训练数据量仅为 5GB,GPT-3 预训练数据量已达 45TB。以公安、金融等场景身份鉴定场景下数据为 例,指纹、人脸、虹膜、声纹以及静脉数据在单一模态下都面临各种可能干扰,数据 损耗难以避免,多模态大规模数据已成为模型迭代优化的重要方向。在更好地优化 模型性能、增强模型泛化性能和软硬件结合方面,数据质量优化是必不可少的。
