2024年AI手机行业深度报告:受益端侧智能体落地,驱动人机交互新范式

AI 手机指端侧搭载大模型的手机,向着 AI 原生方向进发

手机是端侧 AI 落地的最有力载体,30 NPU TOPS 算力或成基础门槛

为什么我们要关注大模型落地智能手机? 根据 Canalys,智能手机的如下特征适合大模型落地: 智能手机拥有庞大的装机量:把 AI 应用集成到智能手机端侧将有助于触及更广泛的受众。到 2023 年,全球智能手机的总装机量将达到 50 亿部,远远超过笔记本电脑加上台式机的 14 亿台装机量。 并且对于发展中市场和年轻一代而言,这一数量差距将会更加显著。因为这部分群体大多已经跳过 了个人电脑时代,更多使用移动原生应用进行内容消费和社交媒体活动。 智能手机便携、使用场景多:口袋大小的尺寸能够使手机更适合各种日常用途,使用场景涵盖从通 信到娱乐等多种需求。并且相比起在 PC 上更常用的生产力以及工作场景,手机相对日常的应用场 景将会形成互补,从而帮助扩大 AI 在消费者数字生活中的影响力。 智能手机应用生态系统强大,可加速第三方 AI 应用成熟:与其他 IoT 设备(例如智能手表)相比, 智能手机的应用市场生态更完善、应用开发者数量更多。强大的应用生态系统不仅有助于跨应用程 序的无缝 AI 集成,也有利于通过茁壮发展的开发者社区创造多样化的第三方 AI 应用。 AI 手机定义: 因大模型走向端侧的时日较短,产业界对 AI 手机的定义尚未统一,总体而言,都指向三个方面:① 能够在手机上端侧运行大模型;②SoC 中包含 NPU 算力;③满足一定性能的量化指标。

AI 手机能提供差异化的用户价值与品牌价值

AI 手机的用户价值:是自在交互、智能随心、专属陪伴、安全可信的个人化助理

1)自在交互:具有图文多模态的能力与全域知识

智能机时代,人与手机交互获得的主要是信息;AI 手机时代,人与手机交互可通过端侧的智能体获 取知识和能力。用户价值体现为:能够获取此时正确的答案,整体交互更为自然、更加直接。

2)智能随心:即时意图理解和服务响应

智能机时代,手机助手提供的主要是闲聊功能,无法做到精确解读自然语言并转化为指令;AI 手机 时代,手机助手可通过识别用户语言和习惯,并完成具体指令。用户价值体现为:可以通过简单操 作/自然语言实现服务调度。

3)专属陪伴:个性化的模型微调和知识增强

智能机时代,用户获取的主要是通用的、基于搜索匹配式的信息;AI 手机时代,用户可以获取基于 本地知识库的专属信息,可针对用户意图做有效调整。用户价值体现为:通过学习用户使用习惯、 陪伴用户成长,可以越来越懂用户,提供的服务更加匹配用户需求。

4)安全可信:内容安全和隐私保护

智能机时代,主要的风险在于隐私安全;AI 手机时代,不仅需要关注隐私安全,还需要设法纠正大 模型的一些天然缺陷,如伦理价值观对齐、幻觉消除等。用户价值体现在:个人隐私数据被妥善保 护,回答贴切和信赖。

AI 手机的厂商价值:提供品牌差异化与用户粘性

对于手机厂商而言,一方面通过生成式 AI 技术提升现有产品竞争,通过打造差异化的硬件产品,推 动手机功能的革新,从而带动用户换机动力;另一方面借助智能手机向端侧智能体演化的机会,手 机厂商可以提升品牌的科技形象与用户粘性,与用户建立长期、紧密的联系,强化自身生态。

AI 手机将会有三个阶段,目前处于 AI 功能阶段,大模型赋能本地预装 APP

大模型在手机端落地能做什么? 我们认为,AI 手机的应用模式将分为三个阶段: 第一阶段是 AI APP 化阶段。该阶段 AI 功能较简单,以 APP 的窗口形式与大模型进行对话交流、 生成图片等,整体功能较基础。实现方式为将各类大模型做成 APP 产品,搭载在手机上,如文 心一言 APP 版、通义千问 APP 版、豆包聊天 APP 版等,只需要应用厂商将大模型做成 APP 产 品,主要的计算处理任务都在云端,不需要手机厂商介入太多; 第二阶段为 AI 功能化阶段。该阶段特征为大模型初步融入手机应用,实现以手机预装应用为主 的调用,可实现如照片编辑、通话翻译、文档总结等功能; 第三阶段为 AI 本地化阶段。我们预计该阶段可实现两个重大跨越:①第三方 APP 可调用本地 大模型的插件,有效提升第三方 APP 的使用体验。因第三方 APP 才是用户使用手机的主体,该 变化有望对用户提升手机使用体验形成较大影响;②手机端侧有望形成智能体,基于语音输入 输出做人机交互,用户可通过自然语言给手机下达指令,手机自己完成相应操作,带来使用便 利性大幅提升。

基于手机端侧算力、大模型轻量化进度、应用生态适配成熟度不足等现状,当前阶段 AI 手机仍处于第二 阶段。鉴于目前主要品牌厂商推出的 AI 手机功能较为类似,我们以典型的 AI 手机产品为例作介绍。

OPPO:2024 年 1 月 8 日发布旗舰机型 OPPO Find X7 Ultra,其 AI 部分功能如下: 通话摘要功能,可一键开启,智能识别通话内容,并生成重要信息摘要。

三星:2024 年 1 月 18 日凌晨,三星发布 Galaxy S24 系列手机,该系列手机引入了一些由生产式 AI 驱动的工具。与国内厂商将 AI 与语音助手结合的方式不同,三星将 AI 功能全方位融入手机日常使 用中,如即圈即搜、实时通话翻译、笔记助手、照片编辑和处理等。 即圈即搜:是 S24 发布会重点介绍的新功能,能够在大部分日常操作场景中触发。比如在社交 媒体看到想去旅游的景点、看到想查阅的图片/文本、在短视频中看到心仪的家具、服饰等,可 以通过长按 Home 键激活 AI,接着通过圈选、高亮、涂写等操作对目标内容操作,并可借助 Google 搜索引擎直接进行检索。这种一步直达的体验可以大大降低 AI 的使用门槛。 实时通话翻译:当我们用三星原生通话应用程序拨打电话时,Galaxy AI 能够支持双向语音 和文字翻译。比如拿着三星手机,用中文给外国友人通话,对方听到的是实时翻译的英语, 同时对方的讲话内容也被翻译成中文传回来。哪怕对方用的是其他品牌的手机,这项功能 也能正常使用。 笔记助手:AI 通过预制格式,帮用户简化笔记流程,创建模版。还能制作带有剪短摘要的封面, 让笔记既专业又便于查找。在会议中,可将复杂多人对话转换成清晰文本,并翻译成所需要的 语言。 照片编辑:Galaxy AI 的照片编辑功能可以一键消除照片内多余的人物,并且在原生位置生成自 然协调的背景,还能解决照片瑕疵,填充图片背景。

三星 Galaxy S24 的 AI 功能更强大,源于内置 Gemini Nano。 AI 功能优化了 Galaxy S24 系列的几乎所有体验,从智能文本和通话翻译(实现无障碍通信),到设 定新的搜索标准,改变了 Galaxy 用户探索周围世界的方式。三星 Galaxy S24 的功能大部分都建立在 谷歌的 AI 模型之上,具体来说,Galaxy S24 使用 Gemini Nano 处理端侧上的任务,使用 Gemini Pro 处理云端驱动的 AI 任务。 为了能够支持移动端设备更好地执行 LLM 语言模型,谷歌提出了新框架,在安卓系统中添加了 AI Core 层,这是一个新的系统层级服务,可用来提供 Gemini Nano 模型的访问,同时提供模型管理、 runtime 和安全性等功能,以此提供模型更新并确保模型输出的安全性。借助 Gemini 的内置功能, Galaxy AI 没有单独入口,让却 AI 功能无处不在。

三星 Galaxy S24 或为第二阶段的 AI 手机划定新标准:将 AI 大模型的能力内化操作系统中,并进一 步落地到具体手机使用场景,而不是以显眼的 AI 应用呈现。AI 功能看似不存在却又无处不在,能 给用户更加有效的体验。 总结来看,目前阶段 AI 手机的功能主要分为以下几类: 1. 输入法升级。将 GenAI 集成到键盘软件,为输入法提供重大升级,提供风格建议和智能 重写等功能。如三星的 Galaxy AI 允许用户以不同的风格和情绪改写句子,同时还提供拼 写和语法改正。 2. 实时翻译和转录。如三星 Galaxy S24 和 Zenfone 11 Ultra 可利用设备端 AI 功能,实现讲电话实 时翻译成用户的首选语言。此外,S24 的实时翻译功能提供电话的实时转录,在屏幕上显示文 本以方便参考,Zenfone 的 AI Transcript 可自动将语音转换为书面文本,使用户能够轻松查看、 搜索和共享重要的对话细节。3. 图像内容生成和编辑。如小米 14 和小米 14Ultra 引入了“AI 人像”功能,允许用户在手机上使 用图库里自己的照片来做训练,训练完成后,用户只需输入文本提示,即可在几乎任何设置中 生成逼真的 AI 自拍。AI 模型根据提示在 30-40 秒内生成四张图像,并提高更高分辨率版本的 选项。OPPO Find X7 Ultra 可实现 AIGC 橡皮擦功能,允许在离线状态下,从照片中删除不需 要的物体或人物。 4. 通过 LLM 实现 AI 驱动的个性化功能。三星 Galaxy S24 在本地托管 LLM,实现一些新功能, 包括根据提示生成类似人类的文本能力,甚至协助编写电子邮件或文档。该模型的性能针对 S24 的硬件进行了优化,确保快速高效的处理,同时通过将数据保存在设备上来维护用户隐私。 OPPO Find X7 Ultra 拥有 AndesGPT,专注于提供上下文感知的多回合对话,以提供更自然、更 引人入胜的用户体验。该型号的 7B 版本使 Find X7 Ultra 能充当虚拟助手,在端侧就可实现提 供个性化推荐、回答问题,甚至帮助完成日常安排和翻译等任务。 5. 先进的生成式 AI 界面工具。荣耀的 Magic Portal 功能允许用户应用程序之间拖放文本或图像等 元素,旨在简化交互。AI 预测用户意图并建议相关的应用程序来共享内容。在推出时,Magic Portal 预计支持全球约 100 个最常用的应用程序。

AI 手机的下一个阶段:端侧智能体是主要特征,从 AI 功能走向 AI 原生

以语音交互的智能体将成下一阶段 AI 手机的交互中枢

随着越来越多的手机厂商开始贯彻以用户为中心的 OS 设计理念,智能手机可以根据用户的使用场 景自动生成个性化的界面设计,包括自动调整图标布局、颜色主题和字体大小等。 基于 AI 智能体多元的、自然的交互体验将成重要特征。随着生成式 AI 手机的进化,以及生成式 AI 应用生态的繁荣,越来越多的功能和服务将被接入 AI 智能体。在此基础上,AI 智能体将革新智 能手机的交互体验,即从传统 GUI(Graphical User Interface)发展成 VUI(Voice User Interface), 最终升级为全新 Agent(App-less)UI,这将意味着用户与手机的交互将发生在 AI 智能体和用户之 间,弱化 APP 的存在感。

我们预计,AI 智能体会逐渐成为链接数字生态的入口,用户只需要输入想要获得的服务(通过语音、 文字等形式),AI 智能体会直接跳转到服务页面,同时 AI 智能体基于对用户习惯的了解以及当前 使用场景,以更加安全和个性化的方式为用户提供数据,或是由 AI 智能体直接完成用户所需要的服 务。这是传统 APP 访问模式所不能做到的。 但这一演进不会一蹴而就,我们预计很长一段时间内,AI 智能体与 APP 会同时活跃在生成式 AI 手机里。此外,头部 APP 亦可能围绕自己的业务生态打造专用 AI 智能体,多智能体共存或 将成为常态。

下一代基于 AI 智能体的 App-less 手机初现。Brain.ai 在巴塞罗那 MWC 展示了 App-less 交互模式的 概念手机,认为“提供 App-less 的界面,可以根据上下文预测并生成下一个界面,并与你的想法同 步”。其目标是打通所有 App 厂商,替代 App-Store。公司推出了名为 Natural 的产品,把各类 App 功能统一到一个全新的 AI 交互界面,以 AI 的形式调用所有的生活服务,到 2023 年已打通超过 3000 个主流 App。 当前是探索 AI 2.0 操作系统的关键时期,很多厂商都在积极布局这一赛道,如魅族宣布放弃传统路 线,全力投入 AI 时代操作系统。在高强度的探索热潮下,或将加速诞生一个真正意义上的超级 APP 雏形,实现 AI 手机的大多数功能。

手机自动执行如何实现?UI 类大模型或将是关键

将多模态能力用于 UI 界面,有望通过理解 UI,来执行智能体的指令

手机 UI,即用户界面(User Interface),是手机应用程序与用户进行交互的视觉和操作型层面。它 涵盖了应用程序的布局、图标、颜色、字体、动画效果以及用户与应用程序交互的方式等多个方面。 一个优秀的手机 UI 设计能够提供良好的用户体验,使得用户能够轻松、直观地使用应用程序。

苹果发布 UI 类大模型,意图通过理解 UI 来执行跨 APP 任务

苹果的 Ferret UI 大模型是建立在 Ferret 多模态模型之上。相较其他多模态模型,Ferret 模型的主要 长项是对于图像具体区域和定位点的认知,远远强于其他多模态模型。苹果设计了图像编码器、空 间感知的视觉采样器和语言模型的架构,可以分辨出“来自区域的形状”(比如点、线和边框), 用户可基于画面中具体的区域与大模型展开更深入的对话。

Ferret UI 大模型透露出苹果意图在操作系统层学习用户使用习惯、并有望替代用户执行操作。Ferret UI 将 Ferret 模型强大的图片区域识别与定位能力,应用于手机 UI 上,经过苹果的优化后,可以更 好的识别手机应用的界面,并将自然语言翻译为界面的操作点。简单表述,当用户与 AI 智能体聊关 于手机界面的信息时,手机能够理解用户的意思,并找到具体的元素。 基于如上功能,Ferret UI 建立了对于手机应用的功能、操作等相对完整的理解,而且是 GPT 4 级别 的理解。Ferret UI 能够执行的任务包括,根据 UI 与用户感知进行交互对话,比如告诉用户相应位置 具体的 UI 内容是什么、如何去和该 UI 交互、根据 UI 元素推断这个软件功能的推理等。 再进一步,基于上述对 UI 的理解,配合端侧智能体的任务规划和分配能力,AI 手机具备了可实现 如下重大跨越的潜力:基于用户自然语言下达的指令,AI 手机理解用户意图,将该意图拆分为具体 工作流,然后从 UI 层面模拟用户操作以执行指令。最终实现跨 APP 的操作与复杂任务执行。那么 一个 AI 原生的手机操作系统的主要架构就完成了。 举例来说,当用户以自然语言向 AI手机输入指令“帮我买一张明天下午 2点去北京的靠窗的火车票”, 手机智能体先接受语音、做语义分析和意图理解,然后进行任务拆分,拆分为:打开 12306App、选 择搜索车票、选择地址“北京”、选择“明天下午 2 点”、选择“靠窗”、选择“乘客姓名”、点 击“购买”;并通过 UI 类模型,解读 APP 上不同的 UI 界面,并模拟用户点击操作,实现整个流程。 对于用户而言,节省大量的自己操作,提升手机应用的便利性。

谷歌亦发布名为 ScreenAI 的大模型,可实现 Ferret UI 模型类似的功能

另一个操作系统巨头为安卓的母公司谷歌,其也发布了类似的、名为 ScreenAI 大模型。与 Ferret UI 一样,也是针对 UI 理解的多模态模型。ScreenAI 的大模型相对简单,基于 Pali,包括一个视觉变换 器(ViT)用来理解 UI 视觉,一个 T5 图文编码器,用于对应用户提问的文字和图像信息。 谷歌的操作和苹果类似,将 UI 界面分割为 5*7 的小块去识别细节,并利用 UI 的训练集加强模型对 UI 元素的认知。ScreenAI 仅有不到 5B,在相关任务的能力超过了谷歌的 Gemini Ultra 模型。 我们认为,UI 类大模型作为连接用户意图与程序实现的重要媒介,有望成为 AI 手机执行用户跨 App 的指令的重要手段。

可直接操作手机的智能体已初现苗头

腾讯公司发布了一个创新的开源项目:AppAgent,这是一个多模态智能代理框架,旨在赋予 AI 智 能体自主操作智能手机应用程序并执行任务的能力。AppAgent 可通过模拟人类的点击、滑动等交互 行为,与应用程序进行操作,无需系统后端访问,从而增强了跨应用的通用性。 AppAgent 的智能体核心功能包括: 1) 自主探索学习:智能体可以独立地探索应用程序,无需外部指导。 2) 观察人类演示学习:智能体通过观察用户的操作演示来学习任务执行。 3) 知识库构建:智能体通过上述学习过程积累经验,构建知识库,用于跨应用执行复杂任务。

综合而言,我们认为下一个阶段的 AI 手机将具备如下能力:端侧智能体理解用户意图并做任务规划, UI 类大模型用作执行工具,可较好的完成用户指令的任务。这些新型功能将有效提升用户使用体验。

端云结合、多模态是手机 GENAI 功能实现的关键

端云混合架构可实现更好的泛化智能,解决手机端算力/功耗的限制

大模型完全运行于手机端侧面临很多难解的现实问题,端云结合是解决方案

大模型“上端”面临手机算力、电池容量的现实问题:客观要求大模型的算力要求不能太高、功耗 不能太高、对内存的占用不能太大。 除手机硬件性能限制外,高频使用下,成本将成重要考量。根据 vivo 副总裁周围的测算,纯云端大 模型一次对话成本为 1.2 分到 1.5 分人民币。以单次 1.5 分计算,假设手机厂商有两亿用户,一天用 十次,一年成本为 110 亿元。而这些计算需求如果放到端侧来执行,仅需要支付最初购买手机的硬 件费用。

云端提供的主要是更强的算力所赋予的更强的泛化智能理解能力

考虑到手机的成本、性能、功耗等要求,结合目前大模型的能力,我们认为未来 AI 手机的大模型配 置将是端+云结合的方案,预计端侧模型参数量为 100 亿左右,兼顾本地化运行的算力限制,做本地 化快速响应;云侧大模型参数量为千亿级别,做深度用户意图理解与复杂指令拆分。 根据 vivo 副总裁周围接受腾讯科技采访时表示,一般大模型涌现智能的基础门槛在 500 亿参数左右, 手机端侧运行的模型在智能涌现方面效果仍有待提升,尚不能承担帮助用户做深度意图理解与任务 拆分的职责,需要云端大模型协作。 以 vivo 的蓝心大模型矩阵为例: 手机端侧有三类模型:第一类是 10 亿级模型,响应速度在 20 毫秒到 100 毫秒,应用场景类似 于文档的归纳总结,但这类模型的理解能力不足;第二类 70 亿级模型,有较好的任务理解能力, 适合语言理解和文本创造方面的任务,且手机的算力和内存能够比较好的支持;第三类 130 亿 参数左右的模型,在端侧运行的效果会更好,但是对手机硬件的要求更高。 云端应有两类模型:一类是 700 亿参数的大模型,综合成本和智能涌现能力考虑,这是蓝心大 模型的云端主力模型,适用于角色扮演、知识问答、自然对话等任务;另一类是 1300/1750 亿参 数的大模型,用于处理比较复杂的场景和任务,如复杂逻辑推理、任务编排等。

端云混合架构,有成本、能耗、性能、隐私和个性化五大优势

混合 AI 架构(或仅在终端侧运行 AI),能够在全球范围内带来成本、能耗、性能、隐私、安全和 个性化优势。 1. 成本。随着生成式的 AI 模型使用量和复杂性不断增长,仅在云端进行推理并不划算。因数据 中心的基础设施成本,包括硬件、场地、能耗、运营、额外带宽和网络传输的成本将持续增加。 根据高通测算,截至 2023 年 5 月,基于 GPT 的生成式 AI 搜索的成本是传统搜索方法的 10 倍。 从云端转移到边缘终端,可以减轻云基础设施压力并减少开支。节省成本将成为生成式 AI 生 态的重要一环。 2. 能耗。支持高效 AI 处理的终端能够提供领先的能效。边缘终端能够以很低的能耗运行生成式 AI 模型,尤其是将处理和数据传输相结合时,与云端相比,这一能耗成本差异非常明显。 3. 可靠性、性能和时延。在混合 AI 架构中,终端侧 AI 处理十分可靠,能够在云服务器和网络连 接拥堵时,提供较为可靠的性能。同时,混合 AI 架构中终端侧具有可用性的优势,让用户无 论身处何处,依然能够正常运行。 4. 隐私和和安全。终端侧 AI 有助于保护用户隐私,因为查询记录和个人信息完全保留在终端上。 无论对于企业工作场景还是消费者使用场景,不用向云侧暴露保密信息,确保个人数据和模型 参数在端侧的安全。 5. 个性化。AI 助手能够在不牺牲隐私的情况下,根据用户的表情、喜好和个性进行定制。所形成 的用户画像能够从实际行为、价值观、痛点、需求、顾虑和问题等方面来为用户考虑,并且可 以随着时间推移进行学习和演进。可用于增强和打造定制化的生成式 AI 提示,然后在终端侧 或云端进行处理。用户画像保留在终端内,因此可以通过终端侧学习不断优化和更新。

根据任务大小/类型不同,端云混合架构有三种不同的负载机制

混合 AI 架构可以根据模型和查询需求的复杂度等因素,选择不同的方式在云端和终端之间分配处理 负载。根据高通的《混合 AI 是 AI 的未来》报告,混合 AI 架构一般分为三种方式:以终端为中心的 混合 AI、基于终端感知的混合 AI、终端与云端协同处理的混合 AI。

1)以终端为中心的混合 AI

在此架构下,终端将充当算力核心,云端仅用来处理终端无法执行的任务,许多任务不需要复杂推 理,可以在终端上充分运行。比如创作图像或起草邮件,快速响应的优先级更高,即使准确度稍有 损失也不太影响用户体验。终端侧 AI 的低延迟反馈可以让用户使用改进的提示,来快速迭代推理过 程,直至获得满意的输出结果。

2)基于终端感知的混合 AI

在此架构下,边缘侧运行的模型将充当云端大语言模型(类似大脑)的传感器输入(类似眼睛 和耳朵)。 以语音问答类任务为例,其负载分配方式如下: a) 用户对智能手机发出复杂语音问题,手机上的语音识别类模型(小模型)将在端侧执行,将麦 克风接受到的语音信号识别为文字,然后将其作为请求发送到云端。 b) 云端运行大语言模型(大模型)理解问题并生成文字回复,再将该回复发回终端。 c) 终端运行文本生成语音模型(小模型),将文本转为语音回答。 将语音识别和文本生成语音这类工作负载转移至终端执行,能有效节省云端计算成本和带宽资源。 并且随着大模型向多模态进展,手机端亦可执行计算机视觉处理,执行更多类型的任务。 这种工作负载模式未来在隐私保护方面也可得到加强。借助手机上用户的使用习惯和数据沉淀,如 社交媒体、电子邮件、消息、日历等,端侧 AI 将能更懂用户,根据用户情况提供更有针对性的服务。 并且端侧 AI 能够设置防护栏,以防止“AI 幻觉”。

3)终端与云端协同处理的混合 AI

在此架构下,终端和云端的 AI 协同工作,生成大语言模型的多个 token。因为大语言模型的运行是 内存受限的,可以进行端云配合的方式以充分利用等待 DRAM 内存数据时空闲算力。例如,根据高 通的《混合 AI 是 AI 的未来》报告,可在端侧布局轻量化的大模型,按顺序连续运行多次运算(多 次读取模型参数)生成对应数量的 token,但是在云端通过一次读取模型参数但多次运行完整大模型 以检查 token 准确度并修正的方式,可以有效提升生成 token 速度,并节省能耗。 因此,最终 AI 手机的工作负载分配方式,可以依据模型和查询复杂度进行分布式处理,例如模型大 小、提示和生成长度低于某个限定值,且能接受一定精度,推理可以在终端进行;如果是复杂的任 务,模型可以跨云端和终端运行;如果需要更多实时信息,也可以连接至互联网获取。

多模态将是实现 AI 智能体愿景的关键

从应用场景来看,多模态大模型可提升以自然语音为中心的交互方式的效率。 人类的交互习性总是向着更便利、更实时、更直观的方向升级。我们认为未来 AI 手机的交互方式将 变得多元化、直觉化,在此趋势下多模态大模型具有天然优势:输入端可以识别、理解不同形式的 内容,用户输入模式可以是文字、语音、图片、视频,自然语言、实时视频等形式的输入更加便利; 输出端,具备多模态输出能力的大模型将以用户为中心,选择最佳的、最适合当前情境的输出方式, 让用户更直观的得到结果。因此,多模态是开启全新交互体验的钥匙。 传统语音助手缺乏实用性的根源,主要是智能程度不够,无法为用户真正解决问题。但是有了多模 态大模型的加持,语音助手将变得更加智能,能够准确地识别、理解人类的自然语言,不但能够快 速理解和响应用户指令,还解锁了语音文本互转、实时图像与视频输入、多轮对话等能力,因此以 自然语言为中心的交互方式将会成为智能手机的首选交互方式。

从应用内容来看,短视频是重要的传播媒介,多模态大模型可制作短视频从而促进生态繁荣。 对于智能手机用户来说,短视频是当下最受欢迎的移动互联网应用之一,我们预计将会是未来数字 内容传播的主要媒介,对优质、个性化、多样化短视频内容的需求也会持续增长。因此短视频制作 是生成式 AI 最重要的领域之一,具备短视频理解能力的生成式 AI 手机可以提供短视频剪辑、风格 转换等功能,随着手机 AI 算力不断增长,语言视觉模型也将在本地部署。届时将会促进短视频这一 内容媒介促使生态繁荣。 从大模型迭代来看,多模态数据可促进大模型性能进一步提升。 多模态大模型可以同时感知不同类型的数据,包括图像、文本和语言,从而能够为智能体的成长提 供更多维度和更加丰富的训练语料。这意味着 AI 智能体可以像人类一样从不同的媒介获取知识,不 断提升对复杂现实世界的理解能力。在这个过程中,AI 智能体将习得“听说读写”这些人类的能力, 带动智能体性能进一步提升。 总结来看,AI 手机要实现长足发展,端云结合、多模态都将是重要的手段。

AI 手机重构产业链,新型“安迪-比尔定律”有望带动持续换 机动力

AI 手机驱动产业链生态重构,算力变革、厂商自研大模型、智能体迭代将是主要 特征

AI 手机产业链生态重构:围绕端侧大模型做生态重塑

根据 OPPO 和 IDC 发布《AI 手机白皮书》,未来 AI 手机产业生态将重构。现有产业生态为“自有 应用+第三方 APP 生态在上层,OS 和 SoC 芯片为底层”的结构,未来将形成“混合算力为基座、大 模型生态置于其上、智能体和 AI 原生服务生态构筑应用”的新型生态结构,产业生态变化较大。

具体而言,手机生态的变革将分为四个方面: 1) 混合算力供给。AI 产品对算力的需求与目前智能手机的算力供给之间存在矛盾,需 NPU 性能 提升和异构算力的升级方能达到要求; 2) 大模型生态。未来行业大模型百家争鸣的现象将长期存在,其中终端厂商承担组织的角色,站 在用户需求的角度通过混合专家模型等方案将大模型能力有序组织起来; 3) 智能体生态。智能体开发门槛比 APP 开发门槛显著降低,从大模型到智能体,终端厂商可复制 运营经验促进智能体生态繁荣; 4) 原生化服务组件。大模型插件、智慧 OS 的原生服务化将成为趋势;原生服务可被智能体调度, 会与智能体生态相辅相成。

AI 手机生态变革带来的影响:类“安迪-比尔定律”驱动未来持续的换机动力

“安迪-比尔定律”是 PC 时代驱动用户换机的重要动力。安迪-比尔定律是指无论硬件(CPU)提高 了多少性能,最终都会被软件(操作系统)消耗掉。安迪、比尔分别是 PC 行业的重要创始人,安 迪指英特尔公司 CEO 安迪·格鲁夫,比尔指微软前 CEO 比尔·盖茨。过去的二十年,英特尔处理 器每十八个月翻一番,计算机内存和硬盘容量以更快的速度增长;但是微软的操作系统等应用软件 越来越慢,也越做越大。所以,虽然现在计算机运行速度比十年前快了一百倍,但用户体验和以前 差不多。因为老版本的 CPU 性能不足以支持新版的操作系统,因此用户需要持续更换设备,以带动 整个产业的设备更迭需求。 AI 手机时代,体验提升驱动大模型与 SoC 迭代,有望复制“安迪-比尔定律”,加快换机周期。我 们预计 AI 手机有望复制 PC 时代的“安迪-比尔定律”,未来更好的端侧 AI 应用体验将要求大模型 (软件)不断升级,大模型升级要求手机 SoC 性能(硬件)不断提升,带动智能手机产业链换机周 期缩短,进入良性增长阶段。

算力变革:以 NPU 提升为核心的异构算力升级,预计 2024H2 达 50 NPU TOPS

手机端 AI 任务需求多元,面临时延、功耗、散热等约束

按能够接受的时延、任务复杂度、运行持续性等,手机端 AI 应用可分为三类: 1) 按需型任务:由用户触发、需要立即响应,包括照片/视频拍摄、图像生成/编辑、代码生成、 录音转录/摘要和文本(电子邮件、文档等)创作/摘要。这包括用户输入文字创作图像、开会 生成会议摘要,或在开车时用语音查询最近的加油站等功能。 2) 持续型任务:运行时间较长,包括语音识别、游戏和视频的超级分辨率、视频通话的音频/视频 处理以及实时翻译。这包括用户在海外出差时使用手机作为实时对话翻译器,玩游戏时提高运 行分辨率。 3) 泛在型任务:在后台持续运行,包括始终开启的预测性 AI 助手、基于情景感知的 AI 个性化和 高级文本自动填充。例如,根据用户的对话内容自动建立与同事的会议、根据用户的学习情况 实时调整学习资料等。 其中,按需型应用的关键性能指标是时延,用户不愿意等待,这类应用使用小模型,CPU 比较适合, 但当模型变大(十亿参数以上),GPU 和 NPU 更为合适。对于持续和泛在型用例来说,电池续航 和能效至关重要,因为需要持续运行,若 SoC 无法做到有效优化、降低功耗,大幅降低的使用时长 将影响用户体验,使用低功耗的 NPU 较为适合。 同时,一般 AI 模型或为内存限制型(性能表现受限于内存带宽)、或为计算限制型(性能表现受限 于处理器性能),因此如何提升内存传输效率、有效升级综合算力将是端侧 AI 需要考虑的重要议题。 结合手机实际情况,手机 GenAI 功能的实现面临两大挑战:第一,在功耗和散热受限的终端上使用 通用 CPU 和 GPU,难以满足这些 AI 用例严苛且多样化的计算需求;第二,因 AI 功能在不断演进, 在功能完全固定在硬件(如 AISC)上部署这些用例不切实际。因此,AI 手机现有算力不足,需针 对 AI 新增的工作负载和约束条件做相应升级。

不同处理器各有适用场景,以 NPU 为核心的异构计算是 AI 时代的应对方案

CPU、GPU、NPU 是现代 SoC 中的核心处理单元,各有特征并适用于不同场景。

CPU(Central Processing Unit)是指中央处理器,是计算机系统的核心,负载执行程序指令、处理和 控制其他硬件设备,通常由控制单元、算术逻辑单元(ALU)和寄存器组成。CPU 的设计使其能够 处理各类型的计算任务,包括复杂的逻辑运算和数据处理。 GPU(Graphic Processing Unit)是图形处理器,最初设计用于处理图形和图像相关的计算任务,如 3D 图形渲染。它包含大量的小核心,这些核心可以并行处理大量的数据,特别适合于执行图形渲染 中的矩阵和向量运算。 NPU(Neural Processing Unit)是指神经处理网络处理器,是一种专门为加速神经网络计算而设计的 处理器,针对 AI 算法进行了优化,能够高效地执行卷积、池化等函数操作。通常用于处理视频、图 像和语音识别等任务,这些任务在传统的 CPU 和 GPU 上效率较低。

每个处理器擅长不同类型的任务:CPU 和 GPU 是传统的通用处理器,为灵活性而设计,易于编程, “本职工作”是负责运行操作系统、游戏和其他应用。但是这些“本职工作”同时也会随时限制他 们运行 AI 工作负载的可用容量。NPU 专为 AI 打造,通过降低部分易编程性以实现更高的峰值性能、 能效和面积效率,从而运行机器学习所需的大量乘法、加法和其他运算。 CPU 优势在顺序控制和即时性,适用于低时延、低计算量的任务;GPU 适合面向高精度格式的并行 处理任务;NPU 适合以低功耗实现持续稳定的高峰值性能。NPU 擅长标量、向量和张量数学运算, 由于 AI 工作负载主要包括由标量、向量和张量数学组成的神经网络层计算,以及随后的非线性激活 函数,NPU 可用于核心 AI 工作负载。

定制化 NPU 的作用将大幅提升。 NPU 专为实现以低功耗加速 AI 推理而打造,并随着新 AI 用例、模型和需求的发展而不断演进。 端侧大模型不断迭代,要求手机端算力升级。从 2023 年开始,大语言模型(如 Llama2)和大视觉 模型(如 Stable Diffusion)赋能的生成式 AI 使得典型的模型大小提升了一个数量级;除了计算需求 外,还需要考虑内存和系统设计,通过减少内存数据传输以提高性能和能效;随着大模型在手机端 侧的进展,我们预计会有对更大规模模型和多模态的需求。 领先 SoC 厂商纷纷针对 NPU 做架构升级。以高通骁龙 8Gen3 的 Hexagon NPU 为例,做了多方面升 级,包括跨整个 NPU 的微架构升级:微切片推理进一步支持更高效的生成式 AI 处理,降低内存带 宽占用;Hexagon 张量加速器增加独立的电源传输轨道,让需求不同标量、向量和张量处理规模的 AI 模型能够实现最高性能和效率;大共享内存的带宽增加一倍;基于 INT4 格式做硬件加速等,实 现相较上代 NPU,为 AI 推理提升 98%性能和 40%能效。 端侧模型的升级,要求手机 SoC 在性能、功耗、效率、可编程性和面积之间进行权衡取舍,而专用 的定制化设计的 NPU,能够在电池续航和能效方面提供有效助力,我们预计 NPU 的算力提升是未 来端侧算力的重要升级方向。 异构计算:利用全部处理器支持生成式 AI。

终端 AI 功能如下三大趋势,对算力架构提出新要求: 1) 终端执行的生成式 AI 模型日益复杂,模型的参数规模不断提升; 2) 终端大模型的多模态趋势日益强化,模型能够接受多种输入形式,比如文本、语音或图像等模 态,并生成多种输出结果; 3) 端侧场景运行模型数量更多,常常需要多个模型并行运行。 生成式 AI 工作负载的复杂性、并发性和多样性对 SoC 的性能提出了新的要求,异构计算架构将大 放光彩。

CPU+GPU+NPU 异构计算架构的优点:满足 AI 功能的升级需求,并实现更低功耗。 异构计算,主要指不同类型的指令集和体系架构的计算单元组成系统的计算方式。简言之,就是综 合应用 CPU、GPU、FPGA、NPU 等不同架构的运算单元整合到一起进行并行运算。相对于传统的 单一计算架构,异构计算不仅可以提高算力和性能,降低功耗和成本,而且还具备多类型任务的处 理能力,是理想的计算架构。 如前所述,端侧 AI 呈现出对模型参数量提升、多模态/多模型并行的趋势,生成式 AI 工作负载的复 杂性、并发性和多样性,需要综合利用 SoC 中所有处理器的能力。 异构计算芯片需要做系统层定制化的设计与优化。异构计算包括多样化处理器、系统架构、软件三 个层级,在异构计算解决方案中,应用系统级方案较为重要。全局视角可以根据针对各个层级间的 关键约束条件、需求和依赖关系,针对 SoC 和最终产品用途做出恰当的选择,比如如何设计共享内 存子系统,或决定不同处理器应支持的数据类型,以打造更具有协同性的解决方案。 通过结合 NPU 使用合适的处理器,异构计算能够实现最佳应用性能、能效和电池续航,赋能全新增 强的生成式 AI 体验。通过全局视角的优化,针对不同任务使用合适的处理器,异构计算能够实现最 佳应用性能、能效和电池续航,赋能全新增强的生成式 AI 体验。

典型案例:异构计算支持虚拟化身 AI 助手的工作流与负载分配。 我们借用“在高通骁龙 8 平台上运行语音控制的 AI 个人助手,并支持手机屏幕上虚拟化身实时动画 效果”这一案例,介绍完整的 AI 手机的工作任务流程,包括不同计算需求如何在不同处理器的工作 负载分配。整个过程的步骤如下: 1) 用户与 AI 助手交谈,通过自动语音识别生成式 AI 模型(Whisper)转化为文本。该模型在高 通传感器中枢上运行; 2) AI 助手使用大语言模型 Llama2-7B 生成文本回复。该模型在 NPU 上运行; 3) 然后利用开源 TTS 模型将文本转化为语音,该模型在 CPU 上运行; 4) 为保持虚拟化身的脸部/口型与语音同步,需运行音频创建融合变形动画(Blendshape),带来 合适的动画效果,该模型在 NPU 上运行; 5) 最终虚拟化身的图像渲染在 GPU 上运行。 同时,整个步骤的数据要在内存子系统中高效传输,并尽可能在芯片上保持数据。

总结来看,对于端侧算力,要实现优秀的 AI 手机的用户体验,一方面要提升 NPU 性能,另一方面 要系统层优化,充分利用 SoC 内处理器的多样性,在最匹配的处理器上运行合适的工作负载。因此, 以 NPU 性能提升为主的异构计算架构 SoC 将是未来 AI 手机的重要助力。

主要手机 SoC 厂商的 NPU 算力快速迭代,2024H2 将支持端侧 AI 性能大幅升级

智能手机 SoC 巨头纷纷转向生成式 AI 芯片

SoC 市场竞争格局集中,联发科、高通、苹果合计占比 79%。根据 Counterpoint 统计,按照出货量 口径,2023 年四季度联发科占据智能手机 SoC 市场 36%、高通份额 23%位居第二、苹果受惠于 iPhone 15 系列芯片发布,份额达到 20%,三家合计达 79%。 典型头部手机 SoC 厂商转向端侧 AI 芯片。联发科、高通已经投入到生成式 AI 手机的浪潮中,目前 已有多款支持多模态大模型端侧部署的移动计算平台,如 2023年四季度发布的天玑 9300、天玑 8300、 高通骁龙 8 Gen3、三星 Exynos 2400、以及 2024 年第二季度发布的骁龙 8s Gen3 和天玑 9300+等, 为 AI 手机的大规模商用铺平了道路。 以天玑 9300 为例,集成了联发科第七代 AI 处理器 APU 790,整数运算和浮点运算性能是上一代的 2 倍,同时功耗降低 45%;内置硬件级的生成式 AI 引擎,可实现更加高速且安全的边缘 AI 计算, 相比上代,专门为目前大模型常用的 Transformer 架构进行算子加速,大模型的处理速度是上一代的 8 倍;支持 LPDDR5T 技术,传输速率高达 9600Mbps,提高了端侧生成式 AI 模型的响应速度。

对于高通而言,2023 年 Q4 发布的骁龙 8Gen3,较骁龙 8Gen2 在 NPU 整体性能提升 98%、AI 推理 的单瓦性能提升 40%;支持 LPDDR5x,传输速率高达 8500Mbps;推出高通 AI Hub 的开发者工具, 包含 75 个经过预训练的 AI 模型,可快速部署在高通支持的设备上。

预计 2024H2 算力将普遍升级至 50 NPU TOPS 以上,可支撑端侧更强 AI 性能

现有旗舰手机 SoC 现状:4nm 工艺为主、针对 Transformer 优化、NPU 提性能降功耗

以高通旗舰芯片骁龙 8 Gen 3 为例,于 2023 年 10 月发布,采用了台积电的 4nm 工艺。CPU 部分采 用“1+3+2+2”架构,其中“1”为 Cortex-X4 超大核,频率为 3.3GHz;“3”为 Cortex-A720 性能核, 频率为 3.15GHz;“2”为 Cortex-A720 能效核,频率为 2.96GHz;最后一个“2”为 Cortex-A520 小 核,频率为 2.27GHz。GPU 部分采用 Adreno 750;根据专业科技媒体“机器之心”,NPU 为高通自 研的 Hexagon,较上代性能提升 98%,单瓦性能提升 40%,支持混合精度(INT4、INT8 和 INT16)。 骁龙 8Gen 3 的综合算力超过 73 TOPS(具体 NPU 算力没有披露),能够支持 100 亿参数的模型, 针对 70 亿参数的 Llama2 能够每秒生成 20 个 token,较有效支持 AI 手机的功能实现。 联发科方面,旗舰芯片天玑 9300 采用台积电第三代 4nm 制程。CPU 架构为“4+4”全大核架构,4 个频率为 3.25GHz 的 Cortex-X4 超大核和 4 个频率为 2.0GHz 的 Cortex-A720 大核构成;根据联发科 官网对天玑 9300 的介绍显示,CPU 单核性能提升超过 15%,多核性能提升超过 40%;GPU 采用 ARM 新一代 12 核旗舰 GPU——Immortalis-G720,峰值性能提升 46%、功耗降低 40%;NPU 方面,生成 式 Transformer 运算速度快 8 倍,功耗较前代降低 45%;内存方面,支持 LPDDR5T 9600Mbps 内存, 以实现更快的智能手机内存传输速率。整体对 AI 功能更为支持。

2024H2 展望:工艺制程、核心架构、NPU 算力/功耗均有望升级

按照往年惯例,主要 SoC 厂商均会在 2024H2 发布旗下最新旗舰产品。结合知名数码媒体爱范儿、 安兔兔、Macworld、Sammobile 等国内外知名媒体透露的信息汇总如下:

高通:旗舰新品为骁龙 8Gen 4,预计采用台积电 N3E 工艺,带来更高的能效和性能。该新品最 大的亮点为采用自研的 Nuvia Phoenix 架构,包含两个 Nuvia Phoenix 性能核心和六个 Nuvia Phoenix M 核心。频率能够达到 4.0GHz;Nuvia Phoenix 相较 Arm 公版架构在性能方面有更高优 势;并集成了新的 NPU,支持 LPDDR6,专门用于提高 AI 计算的效率和速度。

联发科:旗舰新品为天玑 9400,预计采用台积电最新的 3nm 工艺,并延续全大核的激进设计, 同时由于联发科深度参与了 Arm v9 新一代 IP Blackhawk 黑鹰架构的设计,天玑 9400 有望使用 黑鹰架构提升性能。

苹果:旗舰新品为 A18 pro, GPU 部分预计提升 10-15%,但 NPU 部分(苹果称为 Neural Engine) 预计有显著提升,有望超越 50TOPS 算力。

三星:旗舰新品为 Exynos 2500,预计首次采用三星第二代 3nm 工艺,CPU 部分仍将保持 10 核 架构,其中包括 1 个 Cortex-X5 超大核(3.2GHz 或更高)、3 个 Cortex-A720 大核(2.3Ghz 或更 高)、3 个 Cortex-A720 普通核以及 4 个 Cortex-A530 小核。GPU 部分将搭载 AMD 的 RDNA 架 构的 Xlipse 950 GPU。NPU 部分预计可获得较大升级,增加了 TPU 组件(对比 Exynos 2400 只 有 G-NPU、S-NPU),其中 TPU 为三星与谷歌合作,专为涉及 Tensor(多维数组)的机器学习 任务而设计。 我们认为,主流 SoC 厂商 2024 年下半年新品均有望针对 AI 功能做升级,我们预计主要集中在制程 升级、IPC 性能提升、核架构升级等方向,有望在下半年推广 NPU 算力 50TOPS 以上的产品,对 AI 手机的混合算力提供较大支持。

大模型升级:终端手机品牌纷纷自研大模型,手机端侧模型参数量或将升至 130 亿

2023 年主流手机端侧模型参数量为 70 亿,2024 年或将升级至 130 亿

当前手机端侧部署的大模型的参数规模以 70 亿为主,如 OPPO Find X7 系列、荣耀 Magic 6 系列等 安卓机型均实现 70 亿或以上参数量 LLM 的本地部署。随着未来手机 SoC 的 AI 算力提升,预计端 侧能够搭载的大模型参数量能够持续上行。根据 Counterpoint 预测,2024 年本地大模型的参数上限 将增长至 130 亿,2025 年增长至 170 亿。

随着手机端部署的大模型参数量提升,智能手机的大模型性能也将得到提升。目前手机端侧大模型 能够执行的任务以语音/文本互转、短文本生成、低像素的图片编辑与生成为主,根据 Counterpoint 预测,预计 2024 年下半年的新机型在长文本生成、情境感知能力、高分辨率图片生成、音频/视频 编辑功能将得到提升,2025 年下半年可以进行多轮对话、多任务/多模态的工作,在智能体的计划、 记忆、行动能力方面亦能有效提升。

各手机终端品牌纷纷发布自研大模型,端侧均采用自己模型,云侧自研或与第三方合作

多数头部手机厂商已经发布自研 AI 大模型,如华为的盘古大模型拥有 10B 至 100B 的不同量级的参 数规模;小米的 MiLM 大模型拥有 1.3B 和 6B 参数规模两个版本;vivo 的蓝心大模型矩阵拥有 1B 至 130B 的 4 个版本;OPPO 的安第斯大模型 AndesGPT 为 13B;荣耀的魔法大模型为 7B。

手机厂商的自研大模型一般含多款,可简单分为端侧和云侧大模型,采用端云结合的方式提供服务 (见前文“端云结合、多模态是手机 GenAI 功能实现的关键”章节)。目前端侧大模型参数一般不 超过 13B(主要型号为 70 亿),主要为兼容端侧有限的算力,以提供离线服务、本地数据隐私等服 务;云侧一般千亿级别大模型,以提供更好的用户意图理解、生成高精度内容等服务。

端侧模型自研+云侧模型与第三方的合作,可降低研发成本并保护用户隐私。以荣耀和百度的合作 为例,其合作模式如下:魔法大模型负责理解用户意图,在后台将用户的简单提示转化为更专业的 提示,再由文心大模型提供知识问答、生活建议等专业服务。比如,未来当用户要求“帮我制定健 康计划”时,魔法大模型会分析用户健康信息,自动生成具象化提示词,再调度文心大模型,生成 个人定制健身计划。过程中,魔法大模型通过端侧防护网,滤掉敏感信息,并确保个人隐私不上云, 守护安全。

开源模型已有很多,厂商自研大模型的必要性何在? 自研大模型对于手机厂商很有必要,主要出于以下几点考虑: 避免不可控风险。开源大模型或有不可控的风险,以价值观对齐问题为例,针对敏感问题,每 一个开源的大模型都有自己的价值观,而手机厂商面对大批量用户,必须确保自己大模型的价 值观无问题,往往自研大模型更有把握。 针对端侧服务做优化。手机端大模型使用场景与云端使用场景有较大区别,开源模型很难满足 需求。如针对具体词的快速响应、针对手机端需常开的省电需求、未来手机智能体拆解任务的 定制化需求等,开源大模型无法做针对性优化,而手机厂商了解使用场景的痛点,自研的模型 更契合需求。 更快的更新速度。开源大模型的数据更新速度较慢,对于手机端需求改变的响应速度难以及时 调整,而手机厂商自研模型则可快速适配。以 vivo 为例,其自研的增量训练的框架,几乎能保 障自研大模型一个月左右就会更新,有效满足更新需求。

从大模型到智能体:需要赋予其边界理解、任务规划、长短期记忆等能力

智能体是什么? 根据来自 IBM 的 Tula Masterman 等人在论文《The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling A Survey》中的定义,智能体(AI Agent)是受语言模型驱动的 实体,能够规划并在多次迭代中采取行动以执行目标。智能体架构可以由一个单智能体组成,或者 由多个智能体协作解决问题。通常,每个智能体都被赋予了一个角色个性(persona)和访问各种工 具的权限,这些工具将帮助他们独立或作为团队的一部分完成工作。一些智能体还包含一个记忆组 件,可以在消息和提示之外保存和加载信息。 通俗理解,智能体是基于大模型的程序,可自主感知环境、分解任务、规划路径,并不断去迭代、 试错,以此优化自身,最后达成目标。本文的智能体是指运行于硬件端侧(尤其手机),提升用户 对硬件使用体验的智能体。

具体而言,智能体应具备识别边界、主动感知、意图理解、复杂任务分解和长短期记忆的能力。根 据联想 AI PC 创新峰会的披露,智能体相对大模型非常关键的差异在于,智能体知晓自己的边界, 因此能够有效避免大模型的幻觉。除此以外还包括主动感知、用户意图理解、复杂任务分解、长短 期记忆机制等功能,具体如下: 1) 具备个人知识库&工具库的构建和调用能力。可调用的具体工具如本地知识库、知识图谱、工 具库、API 应用商店等。与人类的发展类似,学会使用工具将是智能体进化的重要里程碑; 2) 意图理解&主动感知能力。实现主动感知、主动服务或是智能体的重要标志之一。人类可以通 过反思&自己学习不断提升自己,智能体也应该具备反思、自学习的能力; 3) 长短期记忆机制。智能体需要具备基于世界模型之上,长短期融合和可查询的记忆。记忆是实 现个性化服务的前提之一,也是实现其他能力的关键因素; 4) 智能体自我画像。智能体具有自我认知,可清楚自己的职责和能力边界,当判定超出能力边界 的问题时,不会乱回答,以避免大模型的幻觉问题。类似于人类,清楚自己的职责和能力边界 是文明人和群体智能的重要标志; 5) 复杂任务分解&规划。智能体将具备推理链的能力,借助于泛化理解能力,可将任务进行有效 拆分,更好地完成复杂任务。

大模型与智能体的区别? 大模型是智能体的中枢,但光有大模型并不足以称之为智能体。为防范大模型幻觉等问题,智能体 需要知道自己能力边界,在超出边界时调用工具和搜索知识,才能形成智能体。 虽然大模型学习了几乎全世界的知识,但相对而言大模型将是静态的知识输出;智能体增加可识别 边界、主动感知、意图理解、复杂任务分解和长短期记忆的能力,能够让手机的使用变得更加智能。 根据 vivo 的判断,未来的手机智能体,首先是一个很好的智能助理,具有人格化的管理手机的能力, 其次拥有用户的操作记忆,能够很好的根据用户既往的习惯和偏好,做定制化服务;并且应该有端 侧数据的保密和隐私性,能够得到用户信任。最后,智能体的服务应该是主动、而非被动搜索式的, 要将服务融入用户日常生活。 如何主动触发服务?智能体可基于与用户关系的数据、时间数据、地理位置数据、用户偏好等数据, 主动识别风险或做有益的信息提示。比如用户即将出差杭州,但是杭州下雨,智能体可主动做备伞 的提醒。

为什么要升级成智能体?因为大模型在理解、规划推理方面存不足 根据联想在创新科技大会披露,现有大模型有如下 4 点局限性: 1) 对自我能力的边界不自知:不知道合适和如何调用外部工具来解决复杂问题,当出现边界外的 问题,容易产生错误回答(幻觉问题); 2) 缺乏记忆机制和世界模型:对物理世界的规律无法充分认知; 3) 缺乏复杂任务的分解能力:当任务需要多段推理、分步拆分时大模型无能为力,无法在复杂任 务上发挥作用;4) 缺乏终生学习和迭代更新能力:依赖于模型本身更新,无法根据用户数据迭代。 因为大模型存在如上不足,因此需要将大模型将升级为智能体,才能更好地提供端侧 AI 服务。

大模型如何升级为智能体? 从现有端侧大模型,升级为智能体,需要手机厂商做较多的适配工作。具体而言,以联想的端侧智 能体的案例推测,需要在 6 个核心技术下功夫。 1) 大模型压缩技术。大模型不同层的参数重要性不一样,且对应不同知识和任务的大模型参数分 布在不同区域,因此需分层分区做量化压缩; 2) 大模型关键能力的定向增强。端侧大模型(7B)与传统云端大模型(175B)的工作重点不同, 后者在普适的知识问答上需要功能强大,但前者专注于成为人类助手,在任务分解、调度&执 行上需要做好。因此需要针对性的增强联想认知能力、推理能力、任务分解/规划能力、理解& 生成能力,以更好满足端侧使用需求; 3) 端侧异构推理加速。需要做好软硬一体优化,手机厂商跟芯片厂商关于 Driver Stack 和算子库 进行适配和调优,可加速端侧推理速度; 4) 端侧混合意图理解方案。如何让端侧大模型对用户意图“猜得准、行得对、效果好”?以联想 智能体方案为例,采用“1+1”模式:Always-on 的小模型(用于简单任务的意图理解)+一个 7B 的大模型(用于复杂任务的意图理解);并构建由粗到细(由易到难)的多层次意图理解, 结合统计学习和规则做用户意图理解; 5) 个人知识库和工具库的自动构建&调用。用传统预训练大模型有如下缺陷:①缺乏最新的数据 &知识;②缺乏用户的数据&知识;③缺乏专业领域的数据&知识;④具有大模型幻觉。联想的 解决方案是优化的 RAG(检索增强生成),通过统一优化 RAG 各个相关环节,可大量减少内 存消耗,实现更精准的知识库调用和个性化服务,并有效保护用户隐私; 6) 复杂任务自动化分解方案。智能体如何将复杂任务做分解?这需要终端厂商设计系统的任务执 行路径。联想的解决方案有 Markov Decision Process、Task Decomposer、Self-Reflection 等。 时间方面,据 vivo 副总裁周围接受腾讯科技采访时推测,手机智能体预计 2024 年底成熟。

AI 手机的投资机遇:

总量增长、高端化升级、核心零部件迭代

总量增长:AI 手机出货量将取得大幅增长。根据 IDC 数据,全球方面,预计 2024 年新一代 AI 手机 的出货量将达到 1.7 亿部,约占整体智能手机出货量的 15%。中国方面,预计 2024 年新一代 AI 手 机出货量将达到 4000 万部,约占中国智能手机出货量的 13.2%;预计 2027 年将达到 1.5 亿台,占中 国手机市场的比例约 51.9%。 高端化先行:根据 IDC 定义,需高于 30 NPU TOPS 算力才算 AI 手机,截至 2024 年 2 月符合要求 的仅有少数几款旗舰手机芯片。随着 AI 手机出货量增长,我们预计 AI 手机初期仍然聚焦在高端手 机,因此高端手机及其供应链企业将显著受益。 零部件升级迭代:如前分析,我们预计 SoC 为 AI 手机最主要的硬件升级,为配套 SoC 变化,存储、 散热等零部件亦会同步升级。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告