模型即应用:Scaling Law 驱动模型智能提升,解锁下游场景
全球人工智能(AI)产业正经历着一场具有历史意义的结构性转型,其核心特征是从任务导向的小模型向 通用型的大模型(Large Models)进行的跃迁。这一转变不仅是算力与算法的量变,更是从判别式 AI 向生成式 AI 的质变。根据 MiniMax 招股书披露的行业数据,大模型的本质在于通过海量数据的预训练,习得数据的底层 统计结构,从而具备执行学习、推理、规划以及泛化多元领域知识等人类智力任务的能力。 传统 AI 系统通常基于受限的标注数据进行训练,旨在解决单一领域的特定问题(如人脸识别或推荐算法)。 相比之下,大模型通过在广泛且多样化的数据集上进行预训练,展现出通用性/泛化能力。这种通用性使得一套 基础模型能够通过微调或提示工程适配无限的下游应用场景,从而极大降低软件开发和认知劳动的边际成本结 构。 如下图所示,随着模型沿着 Scaling Law 扩张,智能指数化提升,在多个领域达到乃至超过人类平均水平, 更重要的是模型推理成本指数化下降(属于通缩项目),这意味着过往社会分工一些项目由劳动力工时加成定 价,这部分价格后续可能转变为 Token/算力定价,这意味着劳动力的极大解放。英伟达 CEO 黄仁勋接受访谈时 提到1过去电机替代了大量体力,未来 AI 将在类似规模上增强或替代脑力劳动,他估算大约 65% 的全球 GDP (约 50 万亿美元)都会以某种方式被 AI 增强或重构。AI 行业会比传统软件行业大得多:传统软件是工具, 而大模型/智能体更像“数字员工 / 工厂里的工人”,因此不是只靠卖 license,而是按工作量、节省的人工成 本、产出价值来定价,对应的市场空间覆盖整个“人力成本”而不仅是 IT 预算。A16z 合伙人 Alex Rampell2也 在博客中提到美国每年大约 13 万亿美元的劳动力支出,对比只有约 3000 亿美元的 SaaS 收入,AI 软件可以直 接替代部分人工,从而把目标市场从 SaaS 的几千亿,提升到以劳动力为基数的数万亿级别。

Anthropic CEO Dario Amodei 在访谈5 / 6 / 7中数次提到,①如果 Scaling laws 仍然有效,那么继续扩大训练投 入仍然是合理的。只要同步放大模型规模、训练步数和数据量,模型能力几乎沿直线提升;在这种情况下,继 续增加规模是获得更强通用能力的最确定路径。②前沿模型会迅速逼近甚至超越人类顶级专业水平,因此在这 段时间“不跟进”就会被甩开,这推动了行业内持续加码训练集群的“军备竞赛”。③投入 10 倍训练成本,若 能把模型从“聪明本科生”提升到“顶尖博士”,在药物研发、代码生成等高价值场景往往能获得超过 10 倍的 商业回报,使得指数级 CapEx 有合理 ROI。因此我们可以简化头部厂商的战略视角为“Scaling Law 有效”→“模 型智能提升”→“解锁高 ROI 场景/替代高价值工作”→“超额回报反哺下一代训练”。
关于 Scaling Law 的有效性,2024 年 11 月 NeurIPS 会议中 OpenAI 联合创始人,前首席科学家 Ilya Sutskever 公开判断“Pre-training as we know it will unquestionably end8”(过去我们熟知的预训练范式快要走到尽头), 这一论断引发业界/学界的广泛讨论。2025 年 11 月 Ilya 在接受 Dwarkesh Patel 访谈9时进一步补充其观点, “Pre-training Scaling 的红利期已过,AI 进入了研究与品味的时代。”Scaling Laws 可能放缓的原因在于①数 据枯竭与泛化瓶颈。Ilya 认为,仅仅通过“喂”更多公域数据来提升模型能力的效率正在急剧下降。当模型已 经学习了几乎全人类的文本,再往后的提升需要的是类人学习的效率,而非更庞大的语料库。②能力的质变与 量变。传统的 Scaling Law 预测的是损失函数的降低,但损失降低并不直接等于“逻辑推理能力”或“创新能力” 的线性提升。模型在面对从未见过的编程问题或数学难题时表现出的“平庸”,暗示 Transformer 架构存在结构 性缺陷。

粗放扩张时代已过,架构创新 & RL Scaling 驱动模型智能进一步发展
随着 OpenAI 提出 Inference-time Scaling11,市场目前的共识转向 Scaling Law 仍然有效,但不再像过去一样 简单粗暴堆砌算力和参数/训练语料,而转向架构优化。简单来说,Ilya 指出的问题是依靠堆砌算力/参数/数据, 模型的学习效率边际降低,这与人类的经验不符,人类学习驾驶只需 10-20 小时,而 AI 可能需要海量数据,并 且人类往往具备触类旁通的能力,可以跨领域移植经验,这会导致人类的学习效率边际提升(而非目前大模型 所展现的降低)。 模型架构的优化就是为了解决学习效率低下的问题,24 年以来主流模型团队也取得了积极的架构创新。以 Google 为代表的观点认为,智能的本质在于多模态的统计关联密度。Gemini 3 通过极致的工程,让文本、视频、 音频在同一个 Latent Space(潜在空间)中进行 Scaling。它的智能来自于“见多识广”。通过预训练规模的延 展,Gemini 3 拥有近乎物理直觉的常识,这是靠“小而美”架构很难短期补齐的底座厚度;以 DeepSeek 为代表 的观点则认为,智能的本质是压缩,通过更精妙的数学压缩(如低秩压缩),可以在更小的物理规模下实现同等的逻辑复杂度,从而变相提升 Scaling 的 ROI(边际推理成本降低,边际收益基本不变或者略微下降),典型 作品就是 MLA。
从主流模型团队已经公开的技术博客/论文来看,OpenAI/Anthropic 均已在架构创新+推理侧 Scaling Law 深入布局,Google 仍然固守预训练 Scaling Law(部分得益于数据语料的先天优势),国内团队双边押注,但在架 构效率方面布局相对领先,从 DeepSeek 的 MLA 到 Qwen 的门控注意力机制、Bytedance 的 HC,均反映顶尖模 型研究团队持续迭代创新的能力。如果说单点创新+开源不构成竞争壁垒,那么研发侧的壁垒在于工程能力+架 构创新。 以 DeepSeek 基于 Bytedance 提出的 Hyper-Connection 为例,HC 论文中提到智能来源于深度的有效利用。 推理能力似乎源于深度,因此也间接地源于更优的层组合。传统残差网络在极深层次下会出现“表征崩溃”, 即深层神经元特征变得极度相似,导致“加层”不再增加智能。字节团队通过通过“超连接”将单一残差流扩展 为多条并行“车道”(n 因子扩展),并引入可学习的混合矩阵。这种拓扑复杂性的增加,使得模型能够执行更 复杂的形式化运算(电路变换器效应),从而在数学和编程等高难度推理任务中表现出更高的收敛效率和精度。

更通俗地理解,传统残差像是一条单行的传送带,每一层只能在上一层的基础上做“微调”。如果这条传 送带太长,信号会逐渐被磨平,失去独特性,即信息在介质中传递不断损耗。而超连接打破线性依赖,引入 n 倍的独立子通道,这相当于给信息流开了“多车道”,强制让不同的神经元去负责信息的不同侧面(比如一部分 负责逻辑,一部分负责常识)。此外,HC 允许层与层之间进行非线性跳转。信息不再是 1→2→3,而可能是从 1 楼直接跳到 5 楼,或者 2 楼和 3 楼并排工作。这种灵活性使得特征在传递过程中保持了极高的“熵”(即信 息量),让深层特征依然具有独特性,从而解决了“表征崩溃”。
在字节 Hyper-Connection 原始设计中,为了让信息“多车道”流动,每一层往往会把多个车道的信息相加, 这导致在前向传播时,数值会越来越大(信号放大),而反向传播时,梯度会沿着所有车道同时回传,层数一 深,梯度呈指数级膨胀,导致模型训练崩溃,损失函数无法收敛。DeepSeek 引入 Sinkhorn-Knopp 算法,加入双 向随机强约束,即所有流出的信号之和 = 1,所有流入的信号之和 = 1,因此避免了梯度消失和爆炸的情况,本 质上是能量守恒。 在复杂的系统设计下,DeepSeek 在用算力冗余换取带宽/存储空间,从而提升集群效率。1)如果使用Python/PyTorch,需要多次从HBM 读取数据、计算、再写回,导致显存带宽成为瓶颈,显著增加推理延迟。DeepSeek 利用自研的 TileLang 语言编写了定制的底层算子(Kernel Fusion),GPU 在等待数据从 HBM 加载到芯片 SRAM 的间隙,就顺便完成了这些额外计算。虽然计算量增加,但由于没有增加额外的显存读写次数,实际运行时间 只是轻微增加。2)高并发意味着需要同时处理大量请求,这极度消耗 VRAM。mHC 复杂的连接结构理论上会 增加中间状态的存储开销,挤占显存。DeepSeek 结合 MLA 低秩矩阵压缩技术,将大模型推理中最占显存的 KV Cache 压缩 90%以上。总结来看,低成本源于底层算子优化(利用带宽空闲期计算),高并发源于架构资源置 换(MLA 省下显存给 mHC 用)。

上述 DeepSeek 的案例深度反映工程&研究能力是目前模型团队的竞争核心要素,这里的研究能力主要指的 是提出新想法/思路的能力,而工程能力则是将想法落地,不断试错/打磨的能力。如果说研究能力可以依靠挖掘 少部分顶尖人才快速提升,工程能力则依靠工程团队与研究团队的紧密合作&沟通实现,DeepSeek 的持续创新 迭代并非简单地由少数顶尖算法人才提出的思路实现,背后的工程能力(自研 TileLang 语言/MLA 机制)也非 常重要。MiniMax 在官方博客中也提到,“相比 Full Attention, Linear Attention 和 Sparse Attention 的基建要差的 多, 想要真的拿到收益, 要补不少课。以 Linear Attention 的基建问题为例: 如果对现在已有的线性结构做计算强 度分析, 会发现不少结构都是访存 bound。如果不能做极致的 IO 优化, 从 GPU 算力利用来讲是吃亏的。”因此, 寻求非共识的架构创新需要底层技术栈的完备支持,否则最终系统优化迭代速度可能无根比肩专业分工(CUDA 生态+算法开源)。
技术仍然是第一竞争要素,产品&商业化优先级靠后
就国内模型团队而言,我们的竞争分析就主要围绕 1)模型团队的履历(表征研究水平)及工程能力,2) 商业化经验两个维度进行。我们在图 7-8、11 中已经对中国大模型团队的研究图谱做了总结,相比于 DeepSeek/Qwen/字节聚焦于 MoE/算子优化,MiniMax 团队侧重于注意力机制/多模态领域的积累,例如 2024 年 提出线性注意力机制,2025 年推出流匹配+VAE 架构用于端到端语音生成,SynLogic 用于合成数据反哺端到端 多模态能力。就研究&工程积累,国内第一梯队仍然是 DeepSeek/Qwen/字节等团队,MiniMax/智谱等处于第二 梯队。
但 MiniMax 团队的优势在于创始团队的商业化经验。创始人兼 CEO 闫俊杰,中科院自动化所博士,前商 汤科技副总裁、研究院副院长,联合创始人及战略运营 VP 贠烨祎,前商汤科技 CEO 办公室战略负责人,主导 MiniMax 的合规备案与政府关系(GR)。帮助公司成为上海首批获得大模型备案的企业。大模型研究则由赵鹏 宇、周彧聪负责,后者聚焦于视觉模型研究负责人。其中值得注意的是,创始人闫俊杰曾任商汤科技副总裁、 智慧城市事业群 CTO,具备卓越的技术和管理能力,36kr 报道闫俊杰在商汤带领过 700 余人的团队,把面部识 别算法做到了行业第一13,智慧城市业务 2021 年收入超 20 亿元人民币,这一业务面向政府和大型企业,重交付 (需要把算法部署到各种非标的摄像头和服务器上),重工程(处理海量视频流并发),这反映闫俊杰具备带 领团队较好地实施 to B 交付/工程优化的能力。
如果我们参考 OpenAI 的团队思路,大模型的商业化就是在模型解锁的场景不断规模化探索,触顶后依靠技术迭代解锁下一批场景,直到 Scaling Law 放缓/客观条件不支持继续倍数投入研发。例如 OpenAI 未来的收入 增长要从 ChatGPT 单一产品贡献拓展至 API、Agents、广告等,这就需要对应商业化人才的支持,一个粗糙的 测算方式即将 ChatGPT 参考订阅制产品 Netflix,全球 3 亿订阅用户,12.5 美元/月,2025 年全年约 450 亿美元 收入,ChatGPT 单款产品的商业化天花板目前参考这个标准量级上不会有太大差异,The Information 的报道 2029 年 ChatGPT 收入在 500 亿美元左右。

MiniMax 2021-23 年聚焦于 AI to C 赛道。在 MiniMax 创立初期(2021 年底),闫俊杰的核心思考是技术 必须要转化为服务大众的产品。产品体验(如语音交互的丝滑度、角色的拟人感)几乎完全取决于底层模型的 能力。大模型在多模态(语音、视觉)上的每一次进步,核心价值在于降低用户门槛,从而带来更高的用户渗 透率。例如,GPT-4o 式的实时语音交互能让不方便打字的人也能使用 AI。通过做 C 端产品(如 Glow、星野、 海螺 AI),可以直接接触用户。早期逻辑中,C 端产品能提供大量异质化的用户反馈(RLHF),帮助模型对 齐人类偏好。 2024 年反思数据飞轮在 AI领域不完全成立。移动互联网时代,用户越多→数据越多→推荐算法越准 →产 品越强,但在 AI 时代,更好的模型可以导向更好的应用,但更好的应用和更多用户并不会自动导向更好的模型。 例如 ChatGPT 的日活是 Claude 的50-100倍,但两者的模型智力水平其实差不多。这证明单纯堆积用户规模(DAU) 并不能让模型变聪明。2025 年初闫俊杰访谈时15提出,智能水平的提升不依赖于海量用户。因此,MiniMax 现 在的战略重心从“做增长、做营收”重新聚焦回加速技术迭代。如果模型没有代差级的优势,靠投流买来的用 户没有意义;只有技术突破(如更长的 Context、更好的视频生成)才能带来真正的 Super App。 战略思考的变化也折射到人事变动层面,产品&商业化的优先级有所靠后。2023 年初张前川在高瓴的牵线 下加入 MiniMax,张前川曾任前今日头条产品总监,历经百度/知乎,加入 MiniMax 后担任 VP,全权负责 Talkie、 星野等 APP,拥有极高的独立决策权,且星野/Talkie 实际上也在海外取得不错进展。但 2024 年 9 月,媒体报道16张前川已转为战略顾问,实质上退出日常管理。2025 年 2 月,负责企业级服务和 API 开放平台的魏伟(前 腾讯云/百度智能云高管)也被证实离职17,招股书/近期动态显示,MiniMax 大幅裁撤/缩减 ToB 销售与交付团 队。我们认为这主要是 2024 年以来阿里/字节在模型 API 方面深度降价,MiniMax 裁撤团队主要是减少 API 价 格战对业务的拖累。 换句话说,过早的介入 to C/to B 应用也反映了创始人对于 Scaling Law 的判断,模型智能提升边际放缓, 此时发展 to B/to C 产品尽早商业化有先发优势。Kimi/Moonshot 同期也尝试通过投流&产品迭代实现 C 端产品 领先,但 25 年 2 月 DeepSeek-R1 模型爆火后通过模型性能领先,在 C 端 DAU 方面快速超过豆包/Kimi,因此 这一变化验证了传统移动互联网的规模/网络效应在 AI 产品时代并不完全成立。MiniMax 创始人闫俊杰 2025 年 初接受 LatePost 访谈时18提到,2024 年制定收入目标的时候还是按照移动互联网的逻辑,2025 年不会再制定收 入目标,而是定技术研发目标。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)