华为 AI 手机通过自研的意图框架,与盘古大模型结合;其小艺智能体能够支持多达 23 类的场景记忆感知,通过大规模的AI 推理能力,确保任务的成功率达到 90%。
苹果的 AI 手机策略是将自身应用的 AI 功能做到极致,同时搭好意图框架方案吸引应用厂商,并与 OpenAI 合作,将 ChatGPT 引入Siri,弥补其模型能力较弱的问题。
智能 Siri 将在明年面世。Apple Intelligence 的下一个重大更新将会是预计于2025 年 3 月发布的 iOS 18.4,它将为 Siri 带来改进的自然语言处理系统、更广泛的系统控制范围和屏幕内容解释能力的增强。不过,其中一些内容可能会在 2025 年 1 月份发布的 iOS 18.3 中提前发布。
Apple Intelligence 由自研模型 AFM 支持。苹果 Apple Intelligence 主要是由其自研模型 AFM-on device(端侧)与 AFM-server(云端)运行,辅以OpenAI 的模型支援。AFM-on device 参数量为 30 亿参数,可以直接在iPhone、iPad、Mac 上本地运行,训练算力约 2048 片 TPU v5p(约等于2048 片H100),能够提供如摘要、总结等简单 AI 能力。而更复杂的能力则需调用AFM-server,通过私有云计算并在 Apple 芯片服务器上运行,苹果没有披露其云端模型具体参数,但表示其训练算力为 8192 片 TPU v4(约 3200 片H100)。自研模型能力有待提升。虽这两个模型并未开放评测,但从训练算力上看,这两个模型所用训练算力相较行业头部水平仍有一定距离,性能不会特别出众。而根据彭博媒体报道,ChatGPT 准确率比 Siri 高 25%,可以回答的问题类型要多 30% ,苹果的 AI 技术开发落后行业龙头至少 2 年。
OpenAI 弥补“世界知识”短板。苹果与 OpenAI 合作,预计将在iOS18.2中,整合 Siri 与 ChatGPT。遇到无法解决的“世界知识”时,Siri 将询问用户是否将问题发送给 ChatGPT,交由 ChatGPT 回复。此外,用户也可以在iPhone16新增的相机控制键中调用 ChatGPT,让 ChatGPT 对照片进行分析,或使用谷歌图片搜索在网络上查找类似的结果。
意图框架虚位以待。虽然 iOS 18.1 与 18.2 呈现的 Apple Intelligence 已为我们展现了 AI 手机时代的一角,但是苹果的最终目标是希望Siri 能代替用户操作不同App,这些功能的正式使用将需要等到 2025 年。封闭操作系统以及庞大的用户群体使苹果的开发者生态具备优势,但苹果缺少生态级应用,而调用第三方应用数据与权限在意图框架的技术下,需要获得第三方开发者/厂商授权,第三方应用厂商后续能否接入与合作是决定 Apple Intelligence 进展的重要观察指标之一。
谷歌目前的 AI 手机策略是利用 Gemini 对安卓系统进行改造,同时推广其意图框架方案,并与海外手机厂商合作。 谷歌大模型—端侧搭载 Gemini Nano。谷歌 AI 手机端侧是由Gemini Nano—谷歌最小的多模态模型驱动的。该模型拥有两个版本(18 亿参数与32.5 亿参数),根据手机内存大小适配,能实现包含“屏幕理解”、“通话笔记”、“智能回复”等功能,利用手机端侧算力运行,在端侧帮助手机理解文本、图像和音频。
谷歌大模型—云端由 Gemini 1.5 系列支持。对于端侧模型无法解决的复杂任务,谷歌将使用 Gemini 1.5 系列模型(1.5 Pro 与 1.5 Flash)在云端提供支持,根据雷锋网报道,今年 8 月 2 日,Gemini 1.5 Pro 模型能力在海外大模型排行表Arena榜单上超过 GPT 4o 和 Claude-3.5 夺得第一。 谷歌大模型—长文本与低延迟是谷歌 Gemini 1.5 系列模型的最大特色。Gemini 1.5 Pro 与 1.5 Flash 均支持上下文 200 万的 tokens(GPT-4o 为12.8 万),使得模型拥有更长的记忆能力,能够解锁更多任务。同时,谷歌针对模型效率和延迟做了大幅度优化:对比 GPT-4 Turbo 的 53.4 毫秒/字,Claude 3 Opus 的55.3毫秒/字,Gemini 1.5 Pro输出中文字符能力为 14.1毫秒/字,而主打高效的Gemini1.5 Flash 能做到 5.2 毫秒/字。

得益于自身基础模型的实力,谷歌在最新安卓 15 中将Gemini 深度集成。用户可以在正在使用的 App 顶部调出 Gemini 模块,就屏幕上的内容提出问题。例如,查找正在观看的 YouTube 视频的具体信息。用户还可以直接从Gemini 模块中生成图片,并将它们拖放到 Gmail 和 Google Messages 等应用中。同时,谷歌也向所有安卓用户免费开放 Gemini Live,即谷歌的实时语音助手,并支持自然语言对话(对标 ChatGPT 4o 的实时语音功能)。
谷歌生态:除了大模型的能力支持外,得益于谷歌庞大的用户生态,谷歌AI手机有着明显的可扩展性。目前谷歌的 Gemini App 可以与用户现在所使用的所有应用程序和工具集成,包括 Google Workspace、Keep、Tasks、日历、YouTube 音乐、谷歌地图等,无需跳转并可一站式完成任务,举例如下:1) 让 Gemini 找出朋友在 Gmail 中发来的千层面食谱,并让它将配料添加到 Keep 的购物清单中。 2) 请 Gemini“制作一份播放列表,让我想起90 年代末的歌曲”。不需要太多细节,Gemini 就能明白你想要什么,并交付给你。3) 拍下音乐会传单的照片,询问 Gemini 当天是否有空,设置购票提醒。
Gemini 未来将接入第三方 App。我们看到,Google 正在为Gemini 开发多个第三方集成,其中两个是 Spotify 和 WhatsApp。以 WhatsApp 为例,用户可以通过 Gemini 向 WhatsApp 好友发送消息,或者拨打 WhatsApp 电话。随着Gemini 的进一步推广,谷歌将与更多第三方应用厂商合作,为谷歌AI 手机提供更高的可扩展性。
除了 Gemini 由于自身模型优势与生态优势发展迅速外,谷歌也在推广自身的意图框架。利用意图框架联动各家手机厂商的原生 App 功能,或能做到系统级调用,同时也将联动更多第三方 App 厂商。目前,谷歌的手机AI 功能在自家的Pixel 9 系列已全面搭载,同时,诸多安卓厂商亦纷纷跟进此项技术应用,如三星已经其在 Galaxy S24 系列产品上搭载此功能。此外,我们看到,Oppo、荣耀、小米、传音等在内的众多手机厂商在海外市场中,同样选择了与谷歌开展合作。
Galaxy S24 系列打响三星 AI 手机第一枪。2024 年1 月,三星推出新一代高端旗舰系列 Galaxy S24 Ultra、Galaxy S24+和 Galaxy S24,搭载AI 功能。7 月,三星推出 Galaxy Z Fold6 与 Galaxy Z Flip6,将折叠屏手机与Galaxy AI 深入结合,为用户提供更加便捷的 AI 智能体验。
三星在国内则与各公司的 AI 大模型联合,打造更贴近中国市场需求的AI 体验。中国三星与火山引擎合作,使用豆包大模型以及火山方舟平台提升Bixby语音助手功能以及开发智绘人像功能。同时,百度文心大模型的语言处理能力赋能GalaxyAI 中国区端侧的实时翻译以及其他文字助手功能。在即圈即搜中,国行版的搜索数据库基于百度和京东,非国行版本的则基于谷歌。在图像处理方面,三星基于美图奇想大模型(MiracleVision),为国行版设备带来图片生成、编辑和扩展等功能;基于其自研的 Galaxy Enhance-X 应用程序助力非国行版本设备。
盘古大模型与意图框架相结合。华为 AI 手机通过自研的意图框架,与盘古大模型结合;其小艺智能体能够支持多达 23 类的场景记忆感知,通过大规模的AI 推理能力,确保任务的成功率达到 90%。同时,小艺智能体的知识量已突破万亿tokens,与 300 多种服务通过意图框架深度集成,涵盖日常生活、出行、办公等广泛场景。
华为通过意图框架实现手机 AI。华为的意图框架依托其盘古大模型等技术,对意图识别和推理的能力有较好帮助,尤其是在手机端和云端的集成方面。框架同时支持超过 300 种服务通过华为的意图框架接入。这使得用户可以通过一个入口(如小艺智能体或智慧搜索)访问第三方应用和服务,覆盖支付、出行、娱乐等领域,增强了生态系统的广度。而在场景覆盖方面,华为的意图框架能够支持 23 类场景的记忆和感知,包括生活、出行、办公、娱乐等多个方面,可以结合上下文进行推理,从而提供更加个性化和智能化的服务。
华为的意图框架已开始商业化尝试,鼓励开发者接入。通过多种智慧分发入口,华为系统能够接触到大规模的用户群体,涵盖了从亿级到千万级的不同层次。与此同时,商业设计部分提供了多元的收费模式,能够灵活适应广告商和服务提供商的需求,展示了华为通过流量变现的强大潜力。

倚重纯视觉方案,意图框架补充。既不同于苹果、华为等厂商的重依赖意图框架策略不同,也不同于 vivo 的意图框架与纯视觉齐抓,但侧重意图框架的不同,荣耀的 AI 手机战略侧重纯视觉方案(“yoyo 的自动驾驶”),辅以意图框架体系(“Magic Live 智慧引擎”),而其纯视觉方案目前正与智谱AI 合作。
侧重纯视觉方案:荣耀将大模型与其语音助手 yoyo 进行结合,大模型理解手机屏幕内容,模拟用户操作进行点击操作。此过程包含三个步骤:(1)模糊意图理解,(2)复杂任务规划,(3)任务自动执行。在此过程中,荣耀需要在云端调用大语言模型 Pro 和图像大模型 Pro,同时端侧调用大语言模型Nano、语音大模型、多模态模型和图像大模型 Nano 进行配合。荣耀表示纯视觉模型方案的优势在于“三方零适配,自主执行”,目前其已整合 600 项意图理解,950 项个人记忆,270 项复杂任务规划和900 项任务自动执行,能实现一句话进行外卖点单和取消自动续费等功能。辅以意图框架。除了纯视觉方案外,荣耀与其他厂商类似,也发布了自己的意图框架方案(Magic Live 智慧引擎)。通过 YOYO 智能体/YOYO建议/负一屏/ 荣耀任意门/灵动胶囊/通知中心入口,与第三方应用厂商如中国移动、百度、同程旅行、爱奇艺等合作提供多种服务,例如中国移动的一句话充值话费,同程旅行的票务预订/酒店推荐,百度的模糊指代、精准定位,爱奇艺的语音找片、剧情搜索等功能。
小米 AI 架构:小米 HyperAI 的端云混合大模型架构、自研大模型、多垂类模型使其思考能力不断迭代升级(智慧),端侧感知引擎和记忆架构提供多模态感知能力以及理解和记录能力(记忆和感知)、跨端执行引擎和全生态的物联网基建实现对全生态设备的操控能力(操作能力)。除了大多手机厂商都拥有的 AI 手机功能,比如读屏、圈搜、写作、翻译外,小米 AI 手机的特色为:(1)超级小爱记忆,做好帮记、帮填、帮找,在证件信息、内容收藏、日程安排等方面均适用;(2)管好全家设备,支持一语创建自动化家具管理场景和智能家电操作建议,免去了以往复杂的规则设置;(3)AI 秒画,能够设置一段视频作为锁屏,AI 动态壁纸能够让相册中的静态图片瞬间生动起来。