各厂商AI手机进展如何？ - 问答集锦

最佳答案由匿名用户编辑于2024/12/03 15:18

华为 AI 手机通过自研的意图框架，与盘古大模型结合；其小艺智能体能够支持多达 23 类的场景记忆感知，通过大规模的AI 推理能力，确保任务的成功率达到 90%。

1、苹果：打磨自身应用体验，意图框架虚位以待

苹果的 AI 手机策略是将自身应用的 AI 功能做到极致，同时搭好意图框架方案吸引应用厂商，并与 OpenAI 合作，将 ChatGPT 引入Siri，弥补其模型能力较弱的问题。

智能 Siri 将在明年面世。Apple Intelligence 的下一个重大更新将会是预计于2025 年 3 月发布的 iOS 18.4，它将为 Siri 带来改进的自然语言处理系统、更广泛的系统控制范围和屏幕内容解释能力的增强。不过，其中一些内容可能会在 2025 年 1 月份发布的 iOS 18.3 中提前发布。

Apple Intelligence 由自研模型 AFM 支持。苹果 Apple Intelligence 主要是由其自研模型 AFM-on device（端侧）与 AFM-server（云端）运行，辅以OpenAI 的模型支援。AFM-on device 参数量为 30 亿参数，可以直接在iPhone、iPad、Mac 上本地运行，训练算力约 2048 片 TPU v5p（约等于2048 片H100），能够提供如摘要、总结等简单 AI 能力。而更复杂的能力则需调用AFM-server，通过私有云计算并在 Apple 芯片服务器上运行，苹果没有披露其云端模型具体参数，但表示其训练算力为 8192 片 TPU v4（约 3200 片H100）。自研模型能力有待提升。虽这两个模型并未开放评测，但从训练算力上看，这两个模型所用训练算力相较行业头部水平仍有一定距离，性能不会特别出众。而根据彭博媒体报道，ChatGPT 准确率比 Siri 高 25%，可以回答的问题类型要多 30% ，苹果的 AI 技术开发落后行业龙头至少 2 年。

OpenAI 弥补“世界知识”短板。苹果与 OpenAI 合作，预计将在iOS18.2中，整合 Siri 与 ChatGPT。遇到无法解决的“世界知识”时，Siri 将询问用户是否将问题发送给 ChatGPT，交由 ChatGPT 回复。此外，用户也可以在iPhone16新增的相机控制键中调用 ChatGPT，让 ChatGPT 对照片进行分析，或使用谷歌图片搜索在网络上查找类似的结果。

意图框架虚位以待。虽然 iOS 18.1 与 18.2 呈现的 Apple Intelligence 已为我们展现了 AI 手机时代的一角，但是苹果的最终目标是希望Siri 能代替用户操作不同App，这些功能的正式使用将需要等到 2025 年。封闭操作系统以及庞大的用户群体使苹果的开发者生态具备优势，但苹果缺少生态级应用，而调用第三方应用数据与权限在意图框架的技术下，需要获得第三方开发者/厂商授权，第三方应用厂商后续能否接入与合作是决定 Apple Intelligence 进展的重要观察指标之一。

2、谷歌：Gemini 先行，意图框架跟进

谷歌目前的 AI 手机策略是利用 Gemini 对安卓系统进行改造，同时推广其意图框架方案，并与海外手机厂商合作。谷歌大模型—端侧搭载 Gemini Nano。谷歌 AI 手机端侧是由Gemini Nano—谷歌最小的多模态模型驱动的。该模型拥有两个版本（18 亿参数与32.5 亿参数），根据手机内存大小适配，能实现包含“屏幕理解”、“通话笔记”、“智能回复”等功能，利用手机端侧算力运行，在端侧帮助手机理解文本、图像和音频。

谷歌大模型—云端由 Gemini 1.5 系列支持。对于端侧模型无法解决的复杂任务，谷歌将使用 Gemini 1.5 系列模型（1.5 Pro 与 1.5 Flash）在云端提供支持，根据雷锋网报道，今年 8 月 2 日，Gemini 1.5 Pro 模型能力在海外大模型排行表Arena榜单上超过 GPT 4o 和 Claude-3.5 夺得第一。谷歌大模型—长文本与低延迟是谷歌 Gemini 1.5 系列模型的最大特色。Gemini 1.5 Pro 与 1.5 Flash 均支持上下文 200 万的 tokens（GPT-4o 为12.8 万），使得模型拥有更长的记忆能力，能够解锁更多任务。同时，谷歌针对模型效率和延迟做了大幅度优化：对比 GPT-4 Turbo 的 53.4 毫秒/字，Claude 3 Opus 的55.3毫秒/字，Gemini 1.5 Pro输出中文字符能力为 14.1毫秒/字，而主打高效的Gemini1.5 Flash 能做到 5.2 毫秒/字。

得益于自身基础模型的实力，谷歌在最新安卓 15 中将Gemini 深度集成。用户可以在正在使用的 App 顶部调出 Gemini 模块，就屏幕上的内容提出问题。例如，查找正在观看的 YouTube 视频的具体信息。用户还可以直接从Gemini 模块中生成图片，并将它们拖放到 Gmail 和 Google Messages 等应用中。同时，谷歌也向所有安卓用户免费开放 Gemini Live，即谷歌的实时语音助手，并支持自然语言对话（对标 ChatGPT 4o 的实时语音功能）。

谷歌生态：除了大模型的能力支持外，得益于谷歌庞大的用户生态，谷歌AI手机有着明显的可扩展性。目前谷歌的 Gemini App 可以与用户现在所使用的所有应用程序和工具集成，包括 Google Workspace、Keep、Tasks、日历、YouTube 音乐、谷歌地图等，无需跳转并可一站式完成任务，举例如下：1) 让 Gemini 找出朋友在 Gmail 中发来的千层面食谱，并让它将配料添加到 Keep 的购物清单中。 2) 请 Gemini“制作一份播放列表，让我想起90 年代末的歌曲”。不需要太多细节，Gemini 就能明白你想要什么，并交付给你。3) 拍下音乐会传单的照片，询问 Gemini 当天是否有空，设置购票提醒。

Gemini 未来将接入第三方 App。我们看到，Google 正在为Gemini 开发多个第三方集成，其中两个是 Spotify 和 WhatsApp。以 WhatsApp 为例，用户可以通过 Gemini 向 WhatsApp 好友发送消息，或者拨打 WhatsApp 电话。随着Gemini 的进一步推广，谷歌将与更多第三方应用厂商合作，为谷歌AI 手机提供更高的可扩展性。

除了 Gemini 由于自身模型优势与生态优势发展迅速外，谷歌也在推广自身的意图框架。利用意图框架联动各家手机厂商的原生 App 功能，或能做到系统级调用，同时也将联动更多第三方 App 厂商。目前，谷歌的手机AI 功能在自家的Pixel 9 系列已全面搭载，同时，诸多安卓厂商亦纷纷跟进此项技术应用，如三星已经其在 Galaxy S24 系列产品上搭载此功能。此外，我们看到，Oppo、荣耀、小米、传音等在内的众多手机厂商在海外市场中，同样选择了与谷歌开展合作。

3、三星：海外贴紧谷歌，国内与百度、字节、美图等合作

Galaxy S24 系列打响三星 AI 手机第一枪。2024 年1 月，三星推出新一代高端旗舰系列 Galaxy S24 Ultra、Galaxy S24+和 Galaxy S24，搭载AI 功能。7 月，三星推出 Galaxy Z Fold6 与 Galaxy Z Flip6，将折叠屏手机与Galaxy AI 深入结合，为用户提供更加便捷的 AI 智能体验。

三星在国内则与各公司的 AI 大模型联合，打造更贴近中国市场需求的AI 体验。中国三星与火山引擎合作，使用豆包大模型以及火山方舟平台提升Bixby语音助手功能以及开发智绘人像功能。同时，百度文心大模型的语言处理能力赋能GalaxyAI 中国区端侧的实时翻译以及其他文字助手功能。在即圈即搜中，国行版的搜索数据库基于百度和京东，非国行版本的则基于谷歌。在图像处理方面，三星基于美图奇想大模型（MiracleVision），为国行版设备带来图片生成、编辑和扩展等功能；基于其自研的 Galaxy Enhance-X 应用程序助力非国行版本设备。

4、华为：盘古大模型与意图框架相结合

盘古大模型与意图框架相结合。华为 AI 手机通过自研的意图框架，与盘古大模型结合；其小艺智能体能够支持多达 23 类的场景记忆感知，通过大规模的AI 推理能力，确保任务的成功率达到 90%。同时，小艺智能体的知识量已突破万亿tokens，与 300 多种服务通过意图框架深度集成，涵盖日常生活、出行、办公等广泛场景。

华为通过意图框架实现手机 AI。华为的意图框架依托其盘古大模型等技术，对意图识别和推理的能力有较好帮助，尤其是在手机端和云端的集成方面。框架同时支持超过 300 种服务通过华为的意图框架接入。这使得用户可以通过一个入口（如小艺智能体或智慧搜索）访问第三方应用和服务，覆盖支付、出行、娱乐等领域，增强了生态系统的广度。而在场景覆盖方面，华为的意图框架能够支持 23 类场景的记忆和感知，包括生活、出行、办公、娱乐等多个方面，可以结合上下文进行推理，从而提供更加个性化和智能化的服务。

华为的意图框架已开始商业化尝试，鼓励开发者接入。通过多种智慧分发入口，华为系统能够接触到大规模的用户群体，涵盖了从亿级到千万级的不同层次。与此同时，商业设计部分提供了多元的收费模式，能够灵活适应广告商和服务提供商的需求，展示了华为通过流量变现的强大潜力。

5、荣耀：纯视觉方案为亮点

倚重纯视觉方案，意图框架补充。既不同于苹果、华为等厂商的重依赖意图框架策略不同，也不同于 vivo 的意图框架与纯视觉齐抓，但侧重意图框架的不同，荣耀的 AI 手机战略侧重纯视觉方案（“yoyo 的自动驾驶”），辅以意图框架体系（“Magic Live 智慧引擎”），而其纯视觉方案目前正与智谱AI 合作。

侧重纯视觉方案：荣耀将大模型与其语音助手 yoyo 进行结合，大模型理解手机屏幕内容，模拟用户操作进行点击操作。此过程包含三个步骤：（1）模糊意图理解，（2）复杂任务规划，（3）任务自动执行。在此过程中，荣耀需要在云端调用大语言模型 Pro 和图像大模型 Pro，同时端侧调用大语言模型Nano、语音大模型、多模态模型和图像大模型 Nano 进行配合。荣耀表示纯视觉模型方案的优势在于“三方零适配，自主执行”，目前其已整合 600 项意图理解，950 项个人记忆，270 项复杂任务规划和900 项任务自动执行，能实现一句话进行外卖点单和取消自动续费等功能。辅以意图框架。除了纯视觉方案外，荣耀与其他厂商类似，也发布了自己的意图框架方案（Magic Live 智慧引擎）。通过 YOYO 智能体/YOYO建议/负一屏/ 荣耀任意门/灵动胶囊/通知中心入口，与第三方应用厂商如中国移动、百度、同程旅行、爱奇艺等合作提供多种服务，例如中国移动的一句话充值话费，同程旅行的票务预订/酒店推荐，百度的模糊指代、精准定位，爱奇艺的语音找片、剧情搜索等功能。

6、小米：智能家居是小米 AI 最大的差异化

小米 AI 架构：小米 HyperAI 的端云混合大模型架构、自研大模型、多垂类模型使其思考能力不断迭代升级（智慧），端侧感知引擎和记忆架构提供多模态感知能力以及理解和记录能力（记忆和感知）、跨端执行引擎和全生态的物联网基建实现对全生态设备的操控能力（操作能力）。除了大多手机厂商都拥有的 AI 手机功能，比如读屏、圈搜、写作、翻译外，小米 AI 手机的特色为：（1）超级小爱记忆，做好帮记、帮填、帮找，在证件信息、内容收藏、日程安排等方面均适用；（2）管好全家设备，支持一语创建自动化家具管理场景和智能家电操作建议，免去了以往复杂的规则设置；（3）AI 秒画，能够设置一段视频作为锁屏，AI 动态壁纸能够让相册中的静态图片瞬间生动起来。

参考报告

AI手机专题报告：智能机迈入2.0时代.pdf
- 查看报告