2026年虹软科技公司研究报告：多模态重构端侧交互，算法复用构建盈利护城河

中信建投证券2026/01/20
举报

多模态技术端侧交互变革

大模型加持下，多模态理解和生成正在重塑机器视觉领域。一方面，多模态模型极强的泛化能力提升了机器对非结构化数据的处理能力，从而拓宽了视觉交互的应用边界；另一方面，AI 时代带来了语音、手势、甚至是机器主动进行意图感知的交互升级，使传统硬件形态得以重塑为 AI 端侧产品。

1.1 多模态技术加速发展，驱动业界变革

机器视觉一直是人工智能领域的掌上明珠。自 ChatGPT 爆火以来，大模型技术同样从单一文本模态向原生多模态快速迭代，尤其以 GPT-4o、Gemini 系列为代表的 SOTA 模型，不再是简单的“视觉编码器+文本模型” 的拼凑，而是实现了端到端的跨模态理解与生成。总体而言，机器视觉技术的发展与 AI 整体技术范式演进高度一致，经历了从“规则驱动”到“数据驱动”，再到“通识理解”的质变过程：传统机器视觉（2012 年以前）：规则驱动，强解释性。主要依赖人工设计的特征提取规则与经典图像处理算法，技术栈包括边缘检测、几何运算、模板匹配及 SVM 分类器等。其计算逻辑具有强解释性，但泛化能力较弱。应用场景主要局限于高确定性、配合度高的结构化环境，例如工业自动化中的尺寸测量、电子制造（P CB）缺陷检测，以及条码/二维码/车牌等 OCR 识别领域。深度学习时代（2012-2022 年）：CNN 为核，感知爆发。以 AlexNet 的出现为分水岭，行业进入以卷积神经网络（CNN）为核心的时代。依托 ImageNet 等大规模数据集的标注进行监督学习，算法能够实现端到端的特征自动提取，大幅提升了对非结构化数据的处理能力。此时，视觉技术在开放场景迎来爆发，安防领域的人脸识别与结构化分析、自动驾驶中的车辆/行人目标检测、以及互联网内容审核成为主流应用。此时，机器视觉的核心痛点在于“看得见”但“看不懂”。生成式 AI时代（2023 年至今）：多模态融合，理解与生成并重。多模态大模型逐步强化视觉 AI 的理解和泛化能力。应用场景从判别走向理解与生成，包括通用图像分割（SAM）、文生视频（Sora/Runway）、以及迈向物理世界的具身智能等。

多模态理解是指从视觉、听觉、语言等多个不同模态的数据中提取并融合信息，以实现对数据含义的深入理解和推断的能力。多模态理解借助深度学习与计算机视觉（CV）和自然语言处理（NLP），将视觉信息转为自然语言，应用于图像描述、视频描述及视觉问答，显著扩展 AI 应用并提升智能。图像描述是将视觉信息转换为连贯自然语言文本的过程，提升图像检索效率；视频描述则进一步处理连续帧时序与动态，生成连贯视频内容描述，应用于视频摘要、检索及监控等领域；视觉问答（VQA）结合图像理解与自然语言解析，挑战计算机感知、理解与语言生成能力，推动 AI 发展。

多模态生成包括图像生成和视频生成，后者可以视为多次重复图像生成并构建时间关系的过程。其中，图像生成模型主要包括，（1）自回归生成：主要通过算法逐个生成像素点，主流架构为 Transformer；（2）掩码自回归：优化了单次像素生成数量和顺序，提高了自回归模型的速度和表现，代表包括 MaskGIT、MAR。（3）扩散模型：将图像生成表示为噪声图像变化至目标图像的过程，输入输出自始至终都是完整图像，代表架构包括 DDPM、LDM、DiT。目前多模态生成主流路线为 DiT，自回归架构亦有突破可能。2024 年 2 月，OpenAI 发布的 Sora 进一步在产品侧验证了 DiT 应用于视频生成模型的可行性，Sora 的惊艳效果亦迅速推动 DiT 成为行业公认的主流范式，后续产品如生数科技的 Vidu、Google 推出的 Veo 等均以 DiT 架构为主。11 月 20 日，Google 发布的图片生成模型 Nano Banana Pro 迅速爆火，最大的提升点在于对生图之前的物理模拟和逻辑推理。目前新闻称 Nano Banana Pro 采用的是自回归架构，如果验证为真，则后续其他多模态生成产品亦存在跟进自回归技术的可能。

在前沿演进上，当前多模态模型的迭代正逐步收敛至原生多模态与世界模型两大核心方向。前者优化了跨模态拼接的中间环节，实现了对音频、视觉、文本的端到端统一表征，极低的时延与高保真的情绪感知能力为后续终端的实时交互提供了底层支撑；后者则使 AI 不仅能理解生成画面，更能基于物理模拟器预测环境动态与行为后果（如重力、碰撞、遮挡关系及因果逻辑）。

从传统 CV 迭代到多模态大模型甚至世界模型，对于业界的意义更大于技术架构更替，主要体现在以下两个维度： 1）视觉感知的升维——从“识别”到“理解”：在 CNN 时代，机器视觉主要基于判别式模型，侧重于封闭集合下的特征提取与模式匹配（分类、检测、分割），本质是对物理世界的描述。而在多模态大模型时代，AI 具备了对开放场景的高层语义理解与时空因果推理能力。视觉算法不再局限于输出结构化数据，而是能够理解长尾场景中的复杂逻辑关系。同时，逻辑理解能力为世界模型奠定了基础，此时视觉算法不再是孤立的数据处理传感器，而是成为了大模型连接物理世界的眼睛。以端侧设备为例，摄像头捕捉的视频流将直接作为大模型的 Prompt，视觉数据的价值量被呈指数级放大。 2）技术架构的收敛与泛化：Transformer 架构在视觉领域的统一，使得视觉与语言模型在底层表征上实现了对齐，这意味着通用的多模态底座可以被快速迁移到不同场景。同时，传统视觉算法往往面临“长尾场景”失效的困境（例如自动驾驶遇到未训练过的异形车辆），必须依赖海量特定数据进行二次训练。而原生多模态大模型具备强大的零样本或少样本泛化能力，能通过通识能力处理未知情形，为具身智能落地的最后一公里提供了核心支撑。

1.2 生成式 AI 带来交互变化，促进以眼镜为代表的终端放量

AI 时代带来了从触控指令到意图感知的交互升级。GUI（图形用户界面）时代的终端只能处理预定义的、结构化的显性指令（例如点击特定坐标或特定语法），则人类必须通过学习，将自己模糊的想法“翻译”成机器能听懂的点击或代码。此时，屏幕、键盘和鼠标成为了必不可少的中介，也限制了终端硬件形态必须围绕这些输入设备进行设计。生成式 AI 的出现则为人机交互带来了新的可能，尤其多模态的发展更是突破了过去输入形式的限制。一方面，传统的算法无法理解视频流或自然语言的含义，而多模态大模型能够将摄像头捕捉的视觉/音频/手势等信号直接转化为机器可执行的逻辑，这使得输入指令的形式得到了极大的泛化；另一方面，GUI 时代的交互基于预设规则，且多为“回合制”（用户每输入一次，机器反馈一次），而 AI 时代的交互是基于数据推理的，即 AI 可结合场景和信息推断用户意图，这不仅能够极大程度简化交互界面，还能够更好的满足用户需求。天翼智库将 AI交互的发展总结为四个阶段，即语音自然化、多模态融合、智能体进化、空间虚实化，核心在于从“执行指令”到“理解需求”的变革，这与前述人机交互的发展相一致：（1）语音交互：交互不再依赖特定的唤醒词与机械的问答格式，而是演进为免唤醒全双工模式。新一代语音模型具备了打断机制与情绪感知能力，不仅能像真人一样进行连续对话，还能通过语调波动识别用户情绪（疲惫、焦虑等），从而动态调整回应策略，极大降低了语音式人机交互的认知门槛。（2）多模态交互：单一模态存在局限性（语音易受噪音干扰，纯触控难以应对复杂场景等），多模态则能够通过视觉识别+语音理解+触觉反馈等多方面协同，实现对复杂意图的精准理解。（3）智能体化：终端从被动执行指令的工具升级为可思考规划的自主智能体。基于大模型的记忆与推理能力，智能体可以学习用户的长期习惯，并能自主拆解复杂任务，此时人机交互从“功能驱动”转向“意图驱动”。（4）空间计算：交互演进的终极方向之一。借助 AR 与光波导技术，数字信息不再被禁锢在终端的二维屏幕内，而是直接叠加于三维物理空间之上。通过 SLAM（同步定位与建图）等技术，可实现导航箭头紧贴路面，虚拟说明书悬浮在机器上方等赛博朋克场景，实现目视即所得。此时，数字世界与物理世界的边界已然打破，视觉算法成为了连接二者的桥梁。

为什么 Google Glass 失败了？早在 2012 年的 Google I/O 大会上，几位跳伞运动员佩戴着单腿特殊的眼镜，从旧金山的上空一跃而下，他们看到的景色则被眼镜尽收眼底，实时转播到会场。当运动员换上山地自行车骑行并最终打开会场的大门， Google Glass 这一被誉为“定义未来十年科技走向”的划时代产品已成功引爆媒体热情。十余年后的今天，AI + 眼镜的火热似乎印证了 Google Glass 的前瞻性，但其消费与企业级（Glass Enterprise）产品的陆续取消或停售不得不让我们探究其失败的原因：

（1）过高的定价影响用户需求： Google I/O 2012 上， Google Glass 首发开放 8000 个公测名额，被选中的开发者可以 1500 美元的价格进行预定，预计 2013 年初进行出货。与此同时， 2012 年发布的手机、笔记本、平板等其他数码产品，售价普遍位于 500-1000 美元的区间， Google Glass 过高的售价显著影响其需求。

（2）基础性能羸弱，缺乏应用场景：在华丽营销之下，Google Glass 功能稀少、性能羸弱、续航较差的缺点被进一步放大。功能上，在链接蓝牙后，Google Glass 能够显示天气、消息、电话等信息，或进行拍照、视频录制、导航等。但任何智能手机都能实现以上功能，难言不可替代性；性能上，眼镜有限的空间限制了 Google Glass 的能力。以电池为例， Google Glass 宣称有 6 小时的标准续航，但统计显示只有不到一半的用户能够达到该水平；同时如果用户频繁使用最核心的相机拍摄功能，续航时间可能不足 2 小时。

（3）存在隐私等争议问题： Google Glass 能够悄无声息地进行拍摄且没有任何提醒，同样带来了隐私问题。尤其 2013 年“棱镜门”事件，更进一步加剧了用户的担忧。例如，美国电影协会（MPAA）和全美影院协会（NATO）规定，禁止任何佩戴谷歌眼镜的观众入场观影；甚至 Google 也在自己的发布会上禁止用户佩戴 Google Glass。为什么本轮 AI 眼镜能够起量？恰恰是解决了前述问题。

本轮 AI眼镜的爆发正是对 Google Glass 缺陷的解决，其中很大程度是缘于 AI交互带来的变化。 Meta 智能眼镜持续更新，打开端侧 AI新市场。本轮 AI 眼镜的带动者无疑是 2023 年 9 月 28 日 Meta 联合雷朋推出的 Ray-Ban Meta 智能眼镜（下称 Meta 眼镜），其发布之初主要具备摄影和耳机两大功能；2024 年 4 月，Meta 发布 Llama 3 大模型的同时，将 Meta 眼镜接入了模型生态，当用户进行语音命令时，Meta 眼镜可调用摄像头，拍下用户当前正在看的场景，再通过调用多模态大模型的能力进行回答；9 月的 Meta Connect 上， Meta 眼镜进一步推出了实时 AI 翻译、记忆、视频识物等多模态功能，再添应用场景；12 月 17 日，Meta 眼镜迎来 v11 重大更新，用户可以打开实时 AI（Live AI）会话，眼镜将实时录制视频并分析所见内容，以更自然的方式与用户对话；至此，本轮 AI 眼镜主要功能均已迭代出现，后续 Meta 更多在细节上进行打磨，2025 年还推出了 Oakley Meta Vanguard（主打运动场景）和 Meta Ray-Ban Display（带彩色单目显示）两款新产品。 AI眼镜市场爆发增长，预计未来年复合增长率较高。自 Ray-Ban Meta 发布以来，全球 AI 眼镜市场需求激增。根据 Counterpoint 数据，25H1 全球智能眼镜市场同比增长 110%。随着 Meta、阿里巴巴等 AI 眼镜产品在 25H2 陆续进入市场，根据艾瑞咨询数据，2024 年全球/中国 AI 眼镜出货量分别为 234/36 万台，预计 2025 年 AI 眼镜的全球/中国出货量为 585/108 万台，同比增长 150%/200%。Counterpoint 同样预计，2024-2029 年 AI 眼镜市场将复合年增长率超 60%。分季度看，根据维深信息按接入大模型的 sell out 统计口径，25Q3 全球 AI 眼镜销售 165 万台，环比增长 90%，同比增长 371%。其中，Ray-Ban Meta 销售 112 万台，环比增长 56%。此外，小米、Rokid、雷鸟等 A I 眼镜也贡献一定增量。

（1）价格：技术复杂度决定价格梯度分布，AI眼镜在中国线上零售市场的主流价位在 1500 元以上。根据洛图科技线上监测数据显示，2025 年 1-8 月，AI 音频拍摄眼镜市场中，1500 元以上的销量占据了 55. 2% ，较 2024 年的 29.4%提升 25.8pct；AI+AR 眼镜市场中，2000 元以上销量的占比为 59.0%，较 2024 年的 84. 1% 下降 25.1pct，但 3000 元以上则提升了 7.8pct 至 42.0%。一方面，随着技术复杂度提升，AI 音频拍摄眼镜功能形态向 AI+AR 靠拢，对应产品价格有所上行；另一方面，AI+AR 眼镜受技术成熟成本下降与市场竞争的共同影响，零售均价回落明显，但高端产品线价格却逐步与常规品类拉开差距。相较于 Google Glass 近万元的定价，当前 AI 眼镜 1500 元左右的价格更为大众所接受。

（2）功能：基本应用场景高度重合，拓展进阶功能以实现产品差异化。AI 眼镜在部分应用场景上具有趋同性，但场景的精准契合比功能的盲目堆砌更重要。根据 VR 陀螺数据，截至 2025 年 6 月，AI 眼镜的三大应用场景方面，AI 对话场景/蓝牙音频/同声传译的渗透率分别达 100%/96%/83%；视觉能力方面，摄影摄像/AI 识图 /通知提醒的搭载比例分别为 58%/58%/54%；AR 显示方面，AI 会议纪要/AR 导航/AR 提词器的比例分别为 50%/38%/38%；直播/支付的渗透率不足 5%。通过结合大模型，AI 眼镜具有与手机、PC 不同的 AI 交互范式（如语音、手势等），拓展进阶功能是体现产品核心竞争力的关键。如健康监测、工业辅助、教育交互等垂直领域的开发，或可催生新的市场需求。相较于 Google Glass，当前 AI 眼镜通过与大模型结合能提供更全面的功能点。尤其区别于手机、PC 等传统端侧产品，AI 眼镜语音、手势等交互范式能更无感的嵌入用户生活，优化各场景使用体验。

（3）大模型：多模型协同实现特定功能，定制/自研模型是实现差异化的关键。大模型可以增强 AI 眼镜功能的多样性，提高性能与准确度，实现快速响应与高效处理。2023 年初，智能音频眼镜开始集成 AI 大模型，在语音助手功能的基础上，向多模态交互方向转变。根据量子位智库数据，截至 2025 年 4 月，通义千问、DeepSee k、文心一言、智谱 GLM、豆包分别占市场份额 18.87%、11.32%、11.32%、9.43%、9.43%。由于目前大模型竞争格局尚未明确，因此部分 AI 眼镜产品同时接入多个大模型，根据用户提问内容动态调用，满足多场景需求，如 Rokid Glasses 搭载了通义千问、DeepSeek、豆包、智谱清言、纳米搜索等多个大模型。部分 AI 眼镜厂商与大模型供应商合作开发 AI 眼镜定制模型，例如雷鸟创新和通义合作定制的大模型用于 V3 和 X3 Pro 等产品。也有厂商如李未可自研大模型 WAKE-AI，搭载于产品 Meta Lens Chat AI 眼镜上。目前大部分 AI 眼镜依赖于主流供应商的标准化组件，因此实现差异化是从激烈竞争中脱颖而出的关键。尽管部分硬件技术尚不成熟，但随着与 AI 大模型、软件生态适配度提高，AI眼镜仍然能够带来图形用户界面的拓展，具备多模态交互能力。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）