MoE框架优势及落地进展如何？ - 问答集锦

最佳答案由匿名用户编辑于2024/10/09 15:00

MoE 模型降本增效，应用广泛。

1.MoE 模型在多个赛道表现优异

MoE 框架由来已久，目前已经成为大模型赛道焦点之一。1991 年《Adaptive Mixture of Local Experts》中使用多个单独网络（专家）组成的系统建立一个监管机制，首次提出 MoE 概念；2017 年 Google Brain 团队谷歌将 MoE 引入 NLP，在保持模型高规模的同时实现了快速的推理速度，但也面临稀疏模型高通信成本和训练不稳定性等多项挑战；《MoE Meets Instruction Tuning》提出多种微调策略，提高了 MoE+LLM 的可行性；随后 MoE 模型在不到一年的时间内被广泛应用，2023 年 12 月，Mistra AI 在发布了首个开源 MoE 模型，随后 OpenAI、谷歌、微软、字节跳动等大厂都选择拥抱 MoE 框架，推出自研架构的 MoE 模型，国内昆仑万维、幻方量化、新旦智能、元象科技等大模型新宠快速加入，MoE 被市场广泛关注。

MoE 在 NLP 领域表现出色，已经在 NLP 领域广泛使用。2017 年《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》将 MoE 的概念引入 LSTM，模型在保持极高规模的同时实现了快速的推理速度，在翻译工作中表现出色；2021 年《Scaling Vision with Sparse Mixture of Experts》中 V-MoE 在 NLP 领域表现出出色,大幅度降低了推理成本。在目前主流的大模型如 GPT-4、Genimi 1.5 pro、天工 3.0 语言大模型等都使用了 MoE 框架，MoE 已经成为大语言模型中重要的方法论。从终端 AI Agent 看，萨曼莎 AI 应用了 MoE 技术，终端 Agent 应用于机器人客服，已经开始提供正式服务；医者 AI 也应用了 MoE 架构，目前终端 Agent 在体检和家庭医生两个场景提供服务。

MoE 在 CV 领域表现出色，在研究和应用中潜力巨大。2021 年《Scaling Vision with Sparse Mixture of Experts》的精度和算力成本测试中，在相同的算力成本下 MoE 架构具有更好的表现，另外提到的 BPR 算法优化后的模型表现更好。2023 年，《Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners》中的 Mod-Squad 将 MoE 引入 Vision Transformer (ViT)，模型在 13 个视觉任务的 Taskonomy 大数据集和 PASCALContext 数据集上取得了最佳效果。

MoE 在语音识别领域表现出色。《BA-MoE: Boundary-Aware Mixture-ofExperts Adapter for Code-Switching Speech Recognition》设计了 BA-MoE 框架，最终将混合错误率（MER）降低到 8.08%，在混合语音识别中表现更好。天工 AI 智能助手应用 MoE 框架，在语音识别上表现出色，小米 SU7 小爱同学的多模态工作使用的商汤模型也应用了 MoE 框架。可见 MoE 在商用及市场拓展中进展迅速。

MoE 赋予机器人更强的性能，节约更多的算力成本。机器人领域视觉-语言 -动作多模态模型是大模型落地的绝佳场景，《GeRM: A Generalist Robotic Model with Mixture-of-experts for Quadruped Robot》提出用于四足强化学习的基于 MoE 架构的 GeRM 通用机器人模型，在 99 个任务中相比不使用 MoE 架构的模型，表现出更低参数阈值的涌现能力，提高性能的同时更加节省算力成本。基于 MoE 架构的更多变式的多模态通用机器人模型有望在未来展现出更高的性能，节省更多的成本，带动通用机器人行业更快速成长。

MoE 架构助力 AI 更快打破游戏行业的不可能三角。游戏集合了美术、动化、文字，因为等多模态内容为一体，开发流程复杂，难以实现“成本、质量、速度”的不可能三角,大模型有望打破这一三角：（1）角色生成：Replika， Character.AI、AI Dungeon 等基于语言模型的角色生成已经非常成熟，同类技术可以应用在 NPC 对话中，玩家和 NPC 的交互有望展现出更高的自由度，有望开发出极致仿真的游戏；（2）视觉生成：GPT-4、腾讯混元文生图目前都支持视觉生成，策划使用视觉生成技术，先生成图再与美术沟通可以大大降低沟通成本，甚至“策划+文生图”模型的游戏开发将更加高速，成本更低；（3）元素生成：《微软模拟飞行 2020》应用 AI 技术生成世界各地约 15 亿座 3D 建筑物，突破了人工的限制，MoE 技术有望在元素生成中表现出更好的性能，更快应用 AI 技术降低策划、美术和技术的高昂成本，打破游戏行业的不可能三角。

MoE 技术助力“AI+教育”行稳致远。大模型+教育领域产品已经有大量标的，例如网易有道、科大讯飞、作业帮、学而思等都在 AI 学习机器人领域积极布局。从教学端看，语言和视觉模型可以用于教案生成、素材查找、知识图谱化等，节省老师的劳动时间；从学生端看，私人的 AI 助教可以实时获取反馈，为学生提供个性化的学习方案，目前 QuillBot、Owlift、Grammarly、讯飞 AI 课程和学习机，文心大模型学习机 Z30 等大量标的已经正式提供辅助学习服务。MoE 技术在大模型端降本增效，终端辅助学习工具也将充分受益，成本更低的趋势下，AI 教育产品有望更快速渗透市场。

2.国内外厂商积极应用 MoE 框架，助力降本增效

国外多个 MoE 模型已经开始商业化收费：Gemini 1.5 系列表现亮眼；多个 MoE 开源项目发布，更多 MoE 模型有望快速落地。国外以 GPT-4 为代表的 MoE 模型已经开始商业化，在综合表现、响应速度和定价的对比中，GPT4 定价 30$/M Tokens,远远超过其它模型，Gemini 1.5 Pro 输出价格为 10.50$/MTokens。谷歌 Genimi 系列的综合表现位居前列，轻量版 1.5Flash 的推理速度在所有模型中最快，定价次于 Mixtral 8x7B。2024 年 4 月清华大学和微软联合发布了 MH-MoE 技术细节，开源项目已发布，Llama、Grok 等多个 MoE 开源项目也已经发布，更多项目的商业化落地有望加速。

国内 MoE 模型大量发布，综合表现亮眼。阿里巴巴和腾讯已经开始应用 MoE 框架，腾讯内部业务已接入 MoE 模型。2024 年 1 月 13 日 DeepSeek 发布国内开源 MoE 模型 DeepSeek MoE，5 月 6 日发布第二代模型 DeepSeek-V2，其它如天工 3.0、日日新 SenseNova 5.0、Kimi 也都选择应用 MoE 框架，推出新的或者升级后的模型。老牌厂商中，阿里巴巴和腾讯的大模型均采用了 MoE 框架。阿里巴巴 Qwen1.5-MoE-A2 参数量仅 14.3B，激活参数量仅 2.7B，对硬件资源的要求更小，推理速度更快。2024 年初腾讯应用 MoE 框架升级了混元大模型。

参考报告

计算机行业专题研究：MoE与思维链助力大模型技术路线破局.pdf
- 查看报告