DeepSeek股权结构、发展方向、模型家族技术及影响有哪些?

最佳答案 匿名用户编辑于2025/04/21 11:11

DeepSeek母公司幻方量化,早期确立AI战略为后续出圈埋下伏笔。

一、DeepSeek背景介绍

DeepSeek是一家于2023年成立的中国初创企业,创始人是AI驱动量化对冲基金幻方量化的掌门人梁文锋。从股权结构图显示,DeepSeek由四名自然人通过五层控股掌握100%股份(其中梁文锋间接持股比例83.29%,直接持股1%,累计84.2945%)。 创始人梁文锋出生于广东湛江,浙江大学毕业,拥有信息与电子工程学系本科和硕士学位,2008年起开始带领团队使用机器学习等技术探索全自动量化交易,2015年幻方量化正式成立。2021年,幻方量化的资产管理规模突破千亿大关,跻身国内量化私募领域的“四大天王”之列。2023年梁文锋宣布正式进军通用人工智能领域,创办DeepSeek,专注于做真正人类级别的人工智能。

母公司幻方量化确立以AI为发展方向。2016年,幻方量化第一个由深度学习算法模型生成的股票仓位上线实盘交易,使用GPU进行计算。随后不久,该公司明确宣布AI为主要发展方向。 量化投资全面AI化驱动囤卡需求,为后续蜕变埋下伏笔。复杂的模型计算需求使得单机训练遭遇算力瓶颈,训练需求和有限的计算资源产生矛盾,幻方需要解决算力受限难题。于是幻方在2019年成立了一家AI基础研究公司,并推出自研的“萤火一号”AI集群,搭载500块显卡。2021年,幻方又斥资10亿元建设“萤火二号”,为AI研究提供算力支持。幻方在构建AI算力过程中的“囤卡”动作为它赢得了市场机会。作为国内早期的英伟达芯片大买家之一,2022年其用于科研支持的闲时算力高达1533万GPU时,大大超越了后来很多大模型公司。

二、DeepSeek模型家族技术详解

MLA(多头潜在注意力机制):显著节省计算资源及内存占用

MLA从传统的MHA(多头注意力机制)出发,MHA通过并行 运行多个Self-Attention层并综合其结果,能够同时捕捉输入序 列在不同子空间中的信息,从而增强模型的表达能力。通过将输 入的查询、键和值矩阵分割成多个头,并在每个头中独立计算注 意力,再将这些头的输出拼接线性变换,从而实现在不同表示子 空间中同时捕获和整合多种交互信息,提升模型的表达能力。 处理长序列时MHA会面临计算和内存效率上的局限性,MLA显 著降低计算及内存占用问题。MLA的核心思想则是使用低秩分解 (LoRA)来近似Key和Value的投影,以在推理期间减少键值缓 存(KV cache),显著降低计算和内存占用的复杂度。

DeepSeekMoE架构以及创新性负载均衡策略

MoE架构:传统MoE架构的主要优势是利用稀疏激活的性质,将大模型拆解成若干功能模块,每次计算仅激活其中一小部分,而保持其余模块不被使用,从而大大降低了模型的计算与学习成本,能够在同等计算量的情况下产生性能优势。 DeepSeekMoE在传统MoE架构之上,更新了两个主要的策略:1)细粒度专家分割:在保持模型参数和计算成本一致的情况下,用更精细的颗粒度对专家进行划分,更精细的专家分割使得激活的专家能够以更灵活和适应性更强的方式进行组合;2)共享专家隔离:采用传统路由策略时,分配给不同专家的token可能需要一些共同的知识或信息,因此多个专家可能会有参数冗余。专门的共享专家致力于捕获和整合不同上下文中的共同知识,有助于构建一个具有更多专业专家且参数更高效的模型。 负载均衡:MoE架构下容易产生每次都由少数几个专家处理所有tokens的情况,而其余大量专家处于闲置状态,此外,若不同专家分布在不同计算设备上,同样会造成计算资源浪费以及模型能力局限;负载均衡则类似一个公平的“裁判”,鼓励专家的选择趋于均衡,避免出现上述专家激活不均衡的现象。DeepSeek在专家级的负载均衡外,提出了设备级的负载均衡,确保了跨设备的负载均衡,大幅提升计算效率,缓解计算瓶颈。

DeepSeek-FP8混合精度训练:实现更高的计算效率

DeepSeek V3采用了FP8混合精度训练框架。在训练过程中,大部分核心计算内核均采用FP8精度实 现。例如,在前向传播、激活反向传播和权重反向传播中,输入数据均使用FP8格式,而输出结果则使 用BF16或FP32格式。这种设计使得计算速度相较于原始BF16方法提升一倍。 FP8格式是一种低精度的数据格式,具有较小的存储空间和计算开销。通过使用FP8格式, DeepSeek能够在有限的计算资源下,实现更高的计算效率。例如,在处理大规模数据集时,FP8格式 可以显著减少显存的占用,从而提高模型的训练速度。

三、DeepSeek对AI应用的影响?

DeepSeek打开低成本推理模型边界,加速AI应用布局进程

核心观点:DeepSeek在推动降本、强推理三大层面驱动下,有望加速AI应用普及度迎来跨越式提升。 OpenAI上线性价比模型o3-mini,加速低成本推理模型边界。2025年2月1日,OpenAI深夜上线o3-mini系列推理模型,其也是OpenAI系列推理模型中最具性价比的模型。性能方面,o3-mini在数学、编程、科学等领域表现优异,以数学能力为例,o3-mini(low)达到了与o1-mini相当的水平;o3-mini(medium)能力媲美满血版o1;o3-mini(high)表现超越o1系列一众模型。对比DeepSeek-R1在数学能力、编程能力上的测试结果,DeepSeek R1处于OpenAI o3-mini(medium)水平。 DeepSeek价格优势仍大幅领先于OpenAI系列推理模型。DeepSeek定价为百万tokens输入0.014美元(缓存命中,未命中则0.55美元),百万tokens输出价格2.19美元;o3-mini百万tokens输入价格0.55美元(缓存命中,未命中则1.1美元),百万tokens输出价格为4.4美元。

模型成本下降+性能第一梯队+开源,国内AI应用商业模式有望加速跑通

我们认为DeekSeek或推动AI投资回报率加速提升,AI应用商业模式加速跑通。据中国工业互联网研究院数据,2024年以字节火山引擎、阿里云、百度云为代表的云厂商掀起了大模型价格战,降价幅度普遍达到90%以上。海外以OpenAI为例,5月发布GPT-4o,模型性能升级且价格较GPT-4-Turbo下降50%;8月上线GPT-4o新版本,更强更便宜,但输出价格节省33%。国内以阿里为例,12月31日阿里云宣布2024年度第三轮大模型降价,通义千问视觉理解模型全线降价超80%。 全球及中国AI应用市场规模加速提升。据IDC数据,全球生成式AI市场规模在2024年达到360.6美元,同比+76%,预计在2028年达到2154亿美元;中国AI软件市场规模在2024年达到5.7亿美元,预计2028年达到35.4亿美元。

四、DeepSeek对算力影响?

DeepSeek V3训练中GPU成本558万美元,对比海外成本降低

DeepSeek V3模型训练成本达278.8万H800小时,共花费557.6万美元。对比OpenAI、Anthropic、LlaMA3等模型,DeepSeekV3单次训练成本显著降低,主要系DeepSeek公司通过优化模型结构、模型训练方法、针对性GPU优化等部分,提升了模型训练过程中的算力使用效率。

DeepSeek或有约5万Hopper GPU,训练总成本或较高

据Semianalysis,DeepSeek大致拥有10000张H800 GPU芯片、10000张H100 GPU芯片以及大量H20 GPU芯片,用于模型训练/推理、研究等任务。其估计,De epSe ek的总服务器资本支出(CapEx)约为13亿美元(约90亿元人民币),其中仅集群运营成本就高达7.15亿美元。

De epSe ek V3论文中557.6万美元成本,仅为预训练中消耗的GPU计算成本,但模型完整训练成本包括研发、数据清洗、人员薪资、硬件总拥有成本TCO(服务器、电力、冷却系统、数据中心维护)等,会带来训练总成本体量更高。作为对比,Anthropic训练Claude 3.5 Sonnet的成本就高达数千万美元。