上线18天日活达1500万,即霸榜苹果应用商店140+国家/地区第一名。根据AI产品榜,Deepseek上线仅18天其日活即达到1500万, 是Chatgpt的13倍,2025年5月全球Web访问量达4.32亿次,仅次于ChatGPT、New Bing和Gemini。 Deepseek R1-0528模型在数学、编程与通用逻辑等多个基准测评中整体表现接近OpenAI-o3、Gemini-2.5-Pro-0506等国际顶尖模型。 截至2025年5月底,豆包大模型日均tokens使用量超16.4万亿,较2024年5月同比增长约137倍。
催生全新AI应用:(1)文生文类应用,ChatGPT、DeepSeekR1、豆包等;(2)文生图类应用,Stable Diffusion、百度文心一格、即梦等;(3)文生视频类应用,Sora、阿里AnimateAnyone、字节MagicAnimate等;(4)AlAgent,Manus.AutoGLM、Coze、Copilot等;
赋能传统App:(1)金融类,Wind、同花顺、东方财富等;(2)办公类:WPS、腾讯会议等;(3)社交与内容类,微信、Instagram、小红书等;
美国封锁16nm以下先进制程,并将中国、新加坡的多个实体列入实体清单。2025年1月16日,BIS发布两条规则,一项是更新先进计算半导体的出口管制,增加对芯片工厂和封装公司的出口管控,涵盖14纳米或16纳米及以下节点的芯片,美国还将加强代工厂调查并防止先进芯片流向中国。另一项是将25家中国公司和2家新加坡公司列入实体名单。DeepSeek反映出中美在AI领域的差距在缩小,再次引发地缘政治角度的热议。美国AnthropicCEO达里奥·阿莫迪呼吁美国政府继续维持芯片管制,将H20芯片也纳入限制范围。据彭博社报道,0penA!和微软针对DeepSeek2024年使用OpenAI API接口的账户进行审查,并以涉嫌违反服务条款的模型蒸馏为由取消访问权限。爱尔兰、意大利等国针对DeepSeek的数据安全问题提起质询,DeepSeekApp已在意大利国内的应用市场全面下架。
中国AT企业依靠工程创新持续进步,先进算力仍需突破。伴随美国BIS会进一步加码对芯片、模型的管制,争取美国A1产业的发展时间,中美科技领域差距仍可能拉大。因此,突破先进制程梏,实现半导体自主可控将是中国AI产业发展关键。台积电持续加大资本开支,先进制程产能储备全球领先,中国大陆仍存在代差。2025年台积电资本开支预计将提升至380-420亿美金。约70%将投资于先进制程技术,包括3纳米及2纳米。7nm月产能预计在15-20万片/月,5nm月产能预计超20万片/月,3nm扩产积极预计24年底月产能在12.5万片/月,2nm预计在25年下半年量产,预计月产能达5-6万片,并在26年实现产能翻倍。中国大陆7nm及以下先进制程产能与台积电等代工厂依然有数量级差距,对应晶体管数量约有几十倍的差距,先进制程供应能力亟待提升。
更低的成本是ASIC架构有望成为主流的关键原因。ASIC硬件结构是为特定任务定制的,所以减少很多针对通用加速计算的不必要的硬件设计,其单位算力成本相比GPU或更低。谷歌TPUV5、亚马逊Trainium2的单位算力成本分别为英伟达H100的70%、60%;ASIC芯片需求高速增长。2024-2025年谷歌/亚马逊/Meta ASIC需求由220/160/40万颗增长至280/224/100万颗,微软、0penA1xA等厂商也逐步布局ASIC芯片;
算力芯片:伴随摩尔定律放缓,单die尺寸接近光刻机掩模版面积极限(约858 mm2),多die封装颗绕过光刻物理限制,延续算力性能增长.服务器:为解决Scale out在数据并行任务中的局限,通过scaleup的方式建立处理性能更强的AI服务器;服务器集群:基于高性能的互联技术,实现大规模服务器集群;
制程:由3nm向2nm、A14及A10发展,单芯片品体管数量未来或超过2000亿;先进封装:由2.5D的CoWoS-S封装转向3D的CoWoS-R和CoWoS-L封装,提高中介板面积,提升封装弹性,HBM:迈向多层数和大容量,预计HBM4堆层数或达到16层;
CloudMatrix384将12个32卡服务器集成为统一的超节点,基于点对点服务架构、大规模专家并行策略以及针对性的硬件感知优化,CloudMatrix-Infer单NPU在<50 mS TPOT 条件下,可实现预填充阶段4.45 token/S/TFLOPS和解码阶段1.29token/S/TFLOPS,均超过H100基于SGLang的计算性能及H800基于Deepseek的计算性能。
中国AI芯片主要需求来源:互联网厂商+三大运营商+地方智算中心;国家频繁发布政策加速AI普及。2025年8月与9月,国务院、工信部等多部门频繁发布人工智能相关政策,加速智能终端、智能体等应用普及,并统筹国内智算算力中心建设;
中国移动:2025年智算投资373亿元,2028年底整体投入翻倍,全国产智算规模突破100EFLOPS;中国联通:2025年固定资产投资约550亿元,智算投资同比+28%,并为AI重点基础设施设立专项预算:中国电信:2025年资本开支836亿元,其中算力投资同比+22%,算力相关投资不设限,按需灵活调度;经测算,2027年三大运营商AI算力芯片capex将超过1000亿元。
工艺制程(决定单卡性能上限):目前H20基于4nm工艺,国产算力芯片主要采用N+2工艺;计算精度(灵活适配,降低算力成本):目前H20支持FP8等精度,2026年量产的950PR、690、DCU4将支持FP8;显存:目前国产算力芯片最高可使用HBM2E,HBM3或在2026年突破;集群及互联:NVLink最新协议支持1.8TB/s带宽,2026年950PR将支持2TB/带宽;
CUDA:目前CUDA算子库规模在6000个以上,强化学习框架支持全覆盖,以闭源+算子库快速选代保证自身优势,国内算力生态:(1)兼容路线,海光DTK基于ROCm/HIP衍生高度兼容CUDA,算子库规模约4000个:(2)自研路线昇腾自研AI指令集,算子库规模约3000个。寒武纪自研CNCC编译层,并且自研CNCL通信库,算子库规模小于2000个。
超节点:基于系统工程能力解决单卡性能与显存束缚;大带宽、低时延的互联能力:传统8卡集群,卡间互联基于PCIe或以太网,跨服务器互联带宽主要是25-50GB/且时延达数十微妙;以昇腾384超节点为例,通信带宽提高15倍,单跳通信时延由2微秒降至200ns;内存统一编址:超节点内互联设备的内存地址全局唯一,内存可以在任意处理器间动态迁移,GPU读取数据不需要经过CPU;多级缓存池化、资源灵活配比:通过灵活配比把“多余显存!内存/SSD带宽”转给更需要的任务,提升硬件利用率;基于384超节点,可有效缓解910C显卡带宽限制,吞吐量1943tokens/s,与H100相当;
中国AI面临选择:(1)海外阉割芯片+好用但不可控的CUDA生态;(2)国产算力芯片+难用的国产算力生态。表层是商业选择,底层是中美AI竞争,长痛不如短痛。方案1:(1)短期使用很舒服,但中国AI长期发展将一直看美国脸色,发展快就可能被美国卡脖子,甚至给第五等、第六等芯片;(2)软件生态始终依赖英伟达,现在不做国产化迁移适配,未来开发的万亿参数模型再做适配难度更高;方案2:短期软硬件适配很痛苦,中长期来看,硬件自主可控,无需担心供应链问题。软件生态度过初期适配阵痛期,工具链及算子库将持续完善,使用体验将显著提高;
我们认为AI算力需求会向头部算力芯片厂商集中,主要系:(1)芯片测试、软件适配的资金、时间成本高,云厂商会绑定1-2家第三方芯片供应商长期合作。与大客户的长期合作将提高芯片厂商的硬件设计能力并完善软件生态,加速软硬件壁垒提高;(2)假设单颗GPU研发投入10亿元,按照量产1代、验证1代、研发1代的节奏,营收要求在30亿元以上,考虑到超节点等投入营收要求或在50亿元以上:只有绑定大客户的厂商才可完成盈利闭环,并且具备大客户的厂商才可拿到稳定的N+2产能份额,形成订单与产能的正循环。



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)