DeepSeek成立背景、发展历程、开源战略及技术创新要点在哪?

最佳答案 匿名用户编辑于2025/04/23 11:40

DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,由幻方量化的联合创始人梁文峰创立。

1.DeepSeek 冲击波引发全球科技市场的连锁反应

DeepSeek作为中国AI领域的突破性成果,凭借其低成本、高性能的技术路线和开源策略,引发了全球科技市场的深刻变革。其技术普惠化和开源模式不仅推动了AI技术的广泛应用,还对全球科技产业链、资本市场和国际竞争格局产生了深远影响。

根据数据分析平台QuestMobile最新数据显示,从上线以来至2月9日,DeepSeekAPP的累计下载量已超1.1亿次,周活跃用户规模最高近9700万。其中,1月20日至1月26日,DeepSeek

APP周下载量达到226万次。次周,下载量则直接飙升至6300万次,环比增长超2700%。在用户体验方面,DeepSeek表现不俗。用户普遍认为DeepSeekR1的性能出色,特别是在数学推理、编程能力和自然语言理解等领域。其推理速度和准确度在多个测试场景中达到业界领先水平。此外,DeepSeekR1的“聪明”特性使得用户无需复杂的提示词技巧,即可获得高质量的回答。在实际使用场景中,无论是游戏、视频播放还是日常工作的辅助,其流畅的操作体验都得到了用户的高度评价。用户反馈显示,DeepSeek界面简洁直观、操作简单,在实时数据推送和内容推荐上十分出色能够有效提升工作效率,减少用户在信息检索上的时间投入。

DeepSeekR1的发布引起了硅谷科技领袖、国际媒体及学术界的广泛关注。其性能和开源策略获得了高度评价,被认为是“非美国公司践行 OpenAI初心”的典范。DeepSeekR1的发布引发了全球科技市场的连锁反应。其开源策略、低成本、高性能的特性,对科技巨头形成了压力。其训练成本仅为 600万美元,远低于 OpenAI和谷歌等公司的同类模型,《MIT Technology Review》提到,DeepSeek开发了一种名为“Group Relative Policy Optimization(GRPO)”的新算法,通过创新的训练方法大幅降低了模型的训练成本,还指出,DeepSeek在硬件优化方面也取得了突破,并强调了DeepSeek通过免费开放模型的方式,推动了AI技术的普及和应用。

DeepSeek的崛起促使全球投资重心从硬件密集型企业转向算法优化和应用开发领域。尽管DeepSeek降低了单个模型的算力需求,但其技术普惠化反而刺激了应用场景的扩展,导致算力总需求暴增(“杰文斯悖论”再次生效),而其技术路径的转变降低了对高端GPU的依赖,为国产芯片提供了新的发展机遇,其软硬件协同优化(如尽可能绕过英伟达提供的CUDA软件,直接使用汇编语言PTX与硬件对话),为国产芯片和系统闭环提供了技术验证,推动国内从“模型-芯片-系统”全链条自主化。

2.DeepSeek公司成立背景与发展历程

DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,由幻方量化的联合创始人梁文峰创立。公司自2023年7月年成立以来,始终专注于大语言模型(LLM)及其相关技术的深度研发。公司坚持技术创新路线,开创性地提出多头潜在注意力机制(MLA)和DeepSeekMoE等创新架构。凭借这些创新成果,DeepSeek的大模型在多项权威测评中展现出顶尖的性能表现。DeepSeek的成立标志着幻方量化从量化投资领域向通用人工智能(AGI)领域的拓展。幻方量化为DeepSeek提供了强大的硬件支持,使得DeepSeek在技术研发上具备了坚实的基础。

DeepSeek自成立以来,迅速在大语言模型(LLM)及相关技术研发方面取得了显著进展。以下是其主要发展历程:

2023年11月2日:发布首个开源代码大模型DeepSeekCoder,支持多种编程语言的代码生成、调试和数据分析任务。

2023年11月29日:推出DeepSeekLLM,参数规模达670亿,涵盖对话和文本生成等自然语言任务。

2024年1月5日:发布DeepSeekLLM,包含670亿参数,从零开始在2万亿token的数据集上进行训练。

2024年2月5日:推出DeepSeekMath,专注于数学相关任务。

2024年3月11日:发布DeepSeek-VL,一个开源视觉-语言模型。

2024年5月7日:发布DeepSeek-V2,采用Mixture-of-Experts(MoE)架构,显著提升性能。

2024年6月17日:推出DeepSeek-Coder-V2,提升编码和数学推理能力。

2024年9月5日:合并DeepSeekCoderV2和DeepSeekV2Chat,升级推出 DeepSeekV2.5.

2024年12月13日:发布DeepSeek-VL2,改进视觉语言型的多模态理解能力。

2024年12月26日:上线DeepSeek-V3首个版本并同步开源。

2025年1月20日:发布DeepSeek-R1,采用强化学习技术提升模型推理能力。

3.DeepSeek开源战略

DeepSeek的开源战略是其技术发展和市场推广的核心策略之一。公司坚持“非商业化优先”的开源路线,通过技术共享推动AI普惠。这一战略不仅体现了 DeepSeek的技术理想主义,也展示了其对全球AI技术发展的贡献。

DeepSeek的开源策略对闭源巨头如OpenAI等形成了竞争压力。DeepSeek的开源战略不仅推动了AI技术的普及和创新,还对全球AI产业格局产生了深远影响。通过开源,DeepSeek的技术得以在全球范围内广泛传播和持续改进,形成了一个庞大且活跃的开发者社区。这种开源模式极大地促进了知识共享和技术创新,加速了人工智能技术的普及与应用。未来,DeepSeek将继续在模型架构、训练效率、无限上下文长度等方面进行研究,力求在通往AGI(通用人工智能)的道路上不断前进。

4.DeepSeek技术创新的核心要点

DeepSeekV3大模型的基础架构仍在Transformer的框架中,但是DeepSeek对每个TransformerBlock的注意力机制(Attention)和前馈神经网络(Feed-ForwardNetwork)都采用了创新的架构设计。对于注意力机制,DeepSeek设计了多头潜在注意力(MultiHeadLatentAttention(MLA)),通过将键值(Key-Value(KV))缓存显著压缩为一个潜在向量来确保高效推理。对于前馈神经网络,DeepSeekMoE通过稀疏计算的方式实现了以经济的成本进行强大模型的训练。

DeepSeek-R1-Zero是第一个无需监督微调,仅通过纯强化学习训练(RL)就获得强大推理能力的开源模型。DeepSeek-R1在DeepSeek-R1-Zero的基础上使用了多阶段训练管道,包括冷启动数据和多次强化学习训练迭代,实现了更好的推理性能和可读性。而通过蒸馏,可以将这种推理能力迁移到更小的模型中,小型模型(如 DeepSeek-R1-Distill-Qwen-7B)能够超越 GPT-4o 等非推理模型,而 DeepSeek-R1-Distill-Owen-32B和70B模型甚至超越了 o1-mini。通过蒸馏得到的模型在性能上通常优于直接进行强化学习训练的小型模型。

DeepSeek-V系列模型算法优化

多头潜在注意力(MLA)。传统的Transformer模型通常采用多头注意力机制(MHA),但在生成过程中,其庞大的键值缓存将成为限制推理效率的瓶颈。为了减少键值缓存,谷歌研究团队提出了两种共享键值的模型:多查询注意力机制(MOA)和成组查询注意力机制(GOA)。虽然这两种模型所需的键值缓存较小,但是性能却不及MHA。针对这些挑战,DeepSeek设计了创新的注意力机制 MLA。MLA的核心是用低秩键值联合压缩来降低键值缓存,这些被压缩的潜在向量可以通过投影方式还原为键值,从而在不牺牲模型质量的前提下保证高效的推理吞吐最。

MLA是一种改进的注意力机制,DeepSeek-V2率先采用了MLA技术,之后的DeepSeek-V3也延续使用该技术。该技术使用压缩的潜在向量来表示查询,与标准的多头注意力(MHA)相比,MLA在保持或提高性能的同时,大大降低了KV缓存的需求,从而提高了推理效率。根据DeepSeek-V2技术报告,MLA在小型MoE模型上减少了86%的KV缓存,在大型MoE模型上减少了96%的 KV 缓存。

DeepSeekMoE架构:DeepSeekMoE是一种创新的大规模语言模型架构,其核心在于专家混合系统,该系统通过稀疏化专家分配策略,显著降低了计算量。通过整合专家混合系统(MixtureofExperts,MoE)、改进的注意力机制和优化的归一化策略,在模型效率与计算能力之间实现了新的平衡。该架构通过更细粒度的专家划分和隔离共享专家来减少知识冗余,从而提升模型性能。DeepSeekMoE 架构从DeepSeek-V2开始得到应用。采用该架构的模型,在相同激活参数和总参数条件下,性能优于传统的 MoE架构模型。根据DeepSeekMoE论文结果,与经典 MoE模型 GShard 相比,仅需不到后者28.5%的计算量。

DeepSeekMoE有两个关键理念:一是将专家进行更细粒度的划分,以实现更高程度的专家专业化以及更精准的知识获取;二是隔离部分共享专家,来减轻被路由专家之间的知识冗余。与诸如GShard 这类传统的混合专家(MoE)架构相比,DeepSeekMoE架构能够以经济的成本训练出强

大的模型。当采用专家并行时,被路由的专家将分布在多个设备上。每个token与MoE相关的通信频率与目标专家所覆盖的设备数量成正比。由于DeepSeekMoE采用了更细粒度的专家划分,激活的专家可能会很多,所以专家并行会使MoE相关的通信成本更高。对此,DeepSeekMoE首先确保每个token的目标专家最多分布在M个专家亲和度得分最高的设备上,之后对这些设备进行 Top-K选择。DeepSeekMoE引入专家和设备级别的平衡损失,有效降低这些风险,保障各设备间计算均衡,使模型在训练和推理过程中更稳定、高效地运行。

多令牌预测(Multi-TokenPrediction,MTP)方法在 DeepSeek-V3 技术报告中被提出,是DeepSeek-V3模型中一项重要创新。该技术旨在提高大语言模型在解码阶段的推理效率。通过 MTP技术,DeepSeek-V3解码速度提高了1.8倍,模型预测第二个token接受率在 85%到90%之间,与传统方法一次只能预测一个token相比,MTP技术可以同时预测多个token。以上结果表明,模型进行序列生成时,能够高效预测后续输出,减少计算步骤,更快生成文本。

DeepSeek-R1模型算法优化

纯强化学习(RL)驱动推理能力提升。DeepSeek-R1-Zero 基于 DeepSeek-V3模型开发,是完全通过大规模强化学习进行训练得到的首个开源推理大模型。DeepSeek-R1-Zero在训练过程中自然涌现出多种推理行为,如自我验证、反思和生成长链式思考(CoT),证明了大语言模型的推理能力可以通过纯RL过程来激励获得。该技术的成功尝试为推理大模型领域未来发展奠定了基础。结果表明,DeepSeek-R1-Zero在AIME2024测试中pass@1得分从 15.6%提高到71.0%,通过多数投票机制,该得分可进一步提高到 86.7%。

多阶段训练和冷启动数据。为了解决 DeepSeek-R1-Zero的可读性差和语言混合问题,并进一步提高推理性能,DeepSeek-R1引入了多阶段训练流程和少量冷启动数据。多阶段训练流程包括两个RL阶段与两个SFT阶段。冷启动使用小样本提示与长COT作为示例,直接提示模型生成具有反思和验证的详细答案。通过以上技术训练得到 DeepSeek-R1模型,达到了与OpenAI-01-1217相当的性能。

从大型模型到小型模型的知识蒸馏。DeepSeekAl使用DeepSeek-R1作为教师模型生成推理数据,微调多个在研究中广泛使用的小型密集模型,大幅增强了小模型推理能力。例如对Qwen-7B模型进行微调,得到DeepSeek-R1Distill-0wen-7B模型,该模型在AIME2024上达到了55.5%的成绩,超过了OwO-32B-Preview。同时,研究还表明,在DeepSeek-R1中发现的推理模式可以被提炼到小型模型中,性能比直接在小型模型上应用RL更优。

FP8低精度训练技术是DeepSeek在训练大模型时采用的一项关键创新,旨在通过降低计算精度米显荠提升训练效率和降低成本。FP8(FloatPoint8-bit)低精度训练技术是一种在深度学习训练中使用8位浮点数来表示数据和进行计算的技术,相比传统的16位或32位浮点数,它在内存占用和计算速度上具有显著优势FP8通常会将这8位划分为符号位、指数位和尾数位。通过特定的编码方式,在有限的位数内尽可能精确地表示数值。在深度学习训练过程中,涉及到大量的矩阵乘法、加法等运算。FP8低精度训练技术通过专门设计的硬件和算法,能够直接对FP8数据进行高效的计算。硬件层面上,相关的计算单元会针对FP8的特点进行优化,例如采用更紧凑的逻辑电路来实现FP8的运算,提高计算效率。算法层面上,会对一些数值计算方法进行调整,以适应FP8的精度范围,确保在低精度下计算结果的准确性和稳定性。

通过采用FP8低精度训练技术,DeepSeek在保持高性能的同时,大幅降低了训练成本和资源需求,为AI模型的训练和应用开辟了新的道路。

1)显著降低显存占用:通过使用FP8格式,DeepSeek大幅减少了训练过程中的显存需求使得大规模模型训练更加高效。2)提升训练迷度:低精度计算加速了训练过程,使得模型能够在更短时间内完成训练。3)降低能耗:FP8训练减少了计算资源的使用,从而降低了训练过程中的能耗

DecpScck模型已成功适配并部署在华为异腾PU平台上,使用腾910B芯片,结合CANN7.0.1.5和华为CloudEulerOS2.0操作系统,实现了高效的模型推理。华为云ModelArtsStudio模型即服务平台也支持DeepSeek-R1-Distil,进一步降低了 DeepSeek的开发

和部署成本,提升了其运行效率。MindIE(MindInferenceEngine,异腾推理引擎)是华为异腾针对AI全场景业务的推理加速套件。DeepSeek首发支持国内昇腾平台(Ascend)和MindIE推理引擎,这种软硬件一体化的支持使得用户能够在不同的硬件环境中灵活高效地部署模型。DeepSeek支持多种主流框架、全面开源策略。模型支持 SGLang、LMDeploy和TensorRT-LLM等多个主流框架,开发者可以根据自身需求选择合适的开发工具和框架。