MoE 模型降本增效,应用广泛。
MoE 框架由来已久,目前已经成为大模型赛道焦点之一。1991 年《Adaptive Mixture of Local Experts》中使用多个单独网络(专家)组成的系统建立一个 监管机制,首次提出 MoE 概念;2017 年 Google Brain 团队谷歌将 MoE 引 入 NLP,在保持模型高规模的同时实现了快速的推理速度,但也面临稀疏模 型高通信成本和训练不稳定性等多项挑战;《MoE Meets Instruction Tuning》 提出多种微调策略,提高了 MoE+LLM 的可行性;随后 MoE 模型在不到一 年的时间内被广泛应用,2023 年 12 月,Mistra AI 在发布了首个开源 MoE 模型,随后 OpenAI、谷歌、微软、字节跳动等大厂都选择拥抱 MoE 框架, 推出自研架构的 MoE 模型,国内昆仑万维、幻方量化、新旦智能、元象科 技等大模型新宠快速加入,MoE 被市场广泛关注。
MoE 在 NLP 领域表现出色,已经在 NLP 领域广泛使用。2017 年 《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》将 MoE 的概念引入 LSTM,模型在保持极高规模的同时实现了快速 的推理速度,在翻译工作中表现出色;2021 年《Scaling Vision with Sparse Mixture of Experts》中 V-MoE 在 NLP 领域表现出出色,大幅度降低了推理成 本。在目前主流的大模型如 GPT-4、Genimi 1.5 pro、天工 3.0 语言大模型等 都使用了 MoE 框架,MoE 已经成为大语言模型中重要的方法论。从终端 AI Agent 看,萨曼莎 AI 应用了 MoE 技术,终端 Agent 应用于机器人客服,已 经开始提供正式服务;医者 AI 也应用了 MoE 架构,目前终端 Agent 在体检 和家庭医生两个场景提供服务。
MoE 在 CV 领域表现出色,在研究和应用中潜力巨大。2021 年《Scaling Vision with Sparse Mixture of Experts》的精度和算力成本测试中,在相同的 算力成本下 MoE 架构具有更好的表现,另外提到的 BPR 算法优化后的模型 表现更好。2023 年,《Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners》中的 Mod-Squad 将 MoE 引入 Vision Transformer (ViT), 模型在 13 个视觉任务的 Taskonomy 大数据集和 PASCALContext 数据集上 取得了最佳效果。

MoE 在语音识别领域表现出色。《BA-MoE: Boundary-Aware Mixture-ofExperts Adapter for Code-Switching Speech Recognition》设计了 BA-MoE 框 架,最终将混合错误率(MER)降低到 8.08%,在混合语音识别中表现更好。 天工 AI 智能助手应用 MoE 框架,在语音识别上表现出色,小米 SU7 小爱 同学的多模态工作使用的商汤模型也应用了 MoE 框架。可见 MoE 在商用及 市场拓展中进展迅速。
MoE 赋予机器人更强的性能,节约更多的算力成本。机器人领域视觉-语言 -动作多模态模型是大模型落地的绝佳场景,《GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot》提出用于四足强化学习 的基于 MoE 架构的 GeRM 通用机器人模型,在 99 个任务中相比不使用 MoE 架构的模型,表现出更低参数阈值的涌现能力,提高性能的同时更加节省算 力成本。基于 MoE 架构的更多变式的多模态通用机器人模型有望在未来展 现出更高的性能,节省更多的成本,带动通用机器人行业更快速成长。
MoE 架构助力 AI 更快打破游戏行业的不可能三角。游戏集合了美术、动 化、文字,因为等多模态内容为一体,开发流程复杂,难以实现“成本、质 量、速度”的不可能三角,大模型有望打破这一三角:(1)角色生成:Replika, Character.AI、AI Dungeon 等基于语言模型的角色生成已经非常成熟,同类 技术可以应用在 NPC 对话中,玩家和 NPC 的交互有望展现出更高的自由 度,有望开发出极致仿真的游戏;(2)视觉生成:GPT-4、腾讯混元文生图 目前都支持视觉生成,策划使用视觉生成技术,先生成图再与美术沟通可以 大大降低沟通成本,甚至“策划+文生图”模型的游戏开发将更加高速,成 本更低;(3)元素生成:《微软模拟飞行 2020》应用 AI 技术生成世界各地 约 15 亿座 3D 建筑物,突破了人工的限制,MoE 技术有望在元素生成中表现出更好的性能,更快应用 AI 技术降低策划、美术和技术的高昂成本,打 破游戏行业的不可能三角。
MoE 技术助力“AI+教育”行稳致远。大模型+教育领域产品已经有大量标 的,例如网易有道、科大讯飞、作业帮、学而思等都在 AI 学习机器人领域 积极布局。从教学端看,语言和视觉模型可以用于教案生成、素材查找、知 识图谱化等,节省老师的劳动时间;从学生端看,私人的 AI 助教可以实时 获取反馈,为学生提供个性化的学习方案,目前 QuillBot、Owlift、Grammarly、 讯飞 AI 课程和学习机,文心大模型学习机 Z30 等大量标的已经正式提供辅 助学习服务。MoE 技术在大模型端降本增效,终端辅助学习工具也将充分 受益,成本更低的趋势下,AI 教育产品有望更快速渗透市场。
国外多个 MoE 模型已经开始商业化收费:Gemini 1.5 系列表现亮眼;多个 MoE 开源项目发布,更多 MoE 模型有望快速落地。国外以 GPT-4 为代表 的 MoE 模型已经开始商业化,在综合表现、响应速度和定价的对比中,GPT4 定价 30$/M Tokens,远远超过其它模型,Gemini 1.5 Pro 输出价格为 10.50$/MTokens。谷歌 Genimi 系列的综合表现位居前列,轻量版 1.5Flash 的推理速 度在所有模型中最快,定价次于 Mixtral 8x7B。2024 年 4 月清华大学和微软 联合发布了 MH-MoE 技术细节,开源项目已发布,Llama、Grok 等多个 MoE 开源项目也已经发布,更多项目的商业化落地有望加速。
国内 MoE 模型大量发布,综合表现亮眼。阿里巴巴和腾讯已经开始应用 MoE 框架,腾讯内部业务已接入 MoE 模型。2024 年 1 月 13 日 DeepSeek 发布国内开源 MoE 模型 DeepSeek MoE,5 月 6 日发布第二代模型 DeepSeek-V2,其它如天工 3.0、日日新 SenseNova 5.0、Kimi 也都选择应 用 MoE 框架,推出新的或者升级后的模型。老牌厂商中,阿里巴巴和腾讯 的大模型均采用了 MoE 框架。阿里巴巴 Qwen1.5-MoE-A2 参数量仅 14.3B,激活参数量仅 2.7B,对硬件资源的要求更小,推理速度更快。2024 年初腾讯应用 MoE 框架升级了混元大模型。