智算发展呈现出哪些新趋势？ - 问答集锦

最佳答案由匿名用户编辑于2023/10/31 15:20

以下是关于智算发展五大新趋势的介绍，如果有兴趣了解更多相关的内容，请下载原报告阅读。

1.趋势 1：国产多元异构算力融合推动智算长效发展

大模型发展推动 CPU、GPU、DPU 等“XPU”异构算力融合。一方面，模型训练、边缘推理、数值模拟等不同智能应用需要智算中心提供不同的算力，如自动驾驶、智慧医疗等场景既需要高精度通用算力也需要低精度专用算力[20]。另一方面，随着多模态大模型流量规模增长，CPU、GPU 需要拿出更多精力处理数据传输，需要利用 DPU 减负，从而更好地处理“本职工作”。中国电信自研紫金 DPU 实现服务器虚拟化零损耗，全面释放算力，同时网络 PPS 性能翻倍、存储 IOPS 性能提升两倍、网络时延降低至原来的四分之一。

高端 AI 芯片国产化能力是我国智算产业长效发展的关键。一方面，我国 AI 芯片需求增长迅猛，华为数据显示，我国对人工智能芯片的需求半年内增长了十倍以上；IDC 预测，未来 18 个月，GPU、 ASIC 和 FPGA 等 AI 芯片搭载率将持续增高。另一方面，我国高端 AI 芯片性能与国际领先水平仍有差距，对美国依赖较大。随着美国对中国高端 AI 芯片的管制进一步加强，如英伟达等厂商对中国（含香港）禁运高性能 GPU，需要我国持续加强芯片技术攻关，提升 GPU 的国产化替代能力。

2.趋势 2：智算从单节点向区域化协同、边端部署演变

大模型驱动的智算成为东数西算的最佳实践。由于异构算力封装、超大带宽和超低延迟传输网络技术仍未解决，以当前模型训练参数量（千亿级）为参考，大模型训练等的 AI 计算基本依靠单智算中心完成，且基本集中在同构智能算力中心。智算中心选址多位于东部地区，东部区域在传统数据中心建设方面，由于受能耗、成本等因素的影响发展放缓，但各地政府为实现大模型的创新培育与产业聚集，短期内将主导智算中心发展，形成布局一线及省会城市。长期来看（5 年以上），受成本、双碳目标以及业务模式等因素影响，集约、规模化的智算中心向全国一体化枢纽节点布局的趋势不会改变。未来随着计算机视觉、科学计算等多模态大模型的发展以及参数量的规模增长（万亿以上），将带动东数西训、东数西渲成为东数西算场景落地的最佳实践，并呈现两大趋势：一是大模型演进为多个智算中心分布式训练，且此时智算中心间可以通过全光网等方式实现 us 级时延，智算中心间交互带宽达 T 级别以上；二是业务应用调用多个专业大模型，可能形成云计算中心与智算中心间一对多的互联需求，流量规模增长。西部地区具备发展智算中心、承接东部算力需求的潜力，东西跨区域协同将更加突出。

训练-推理的集中-边缘/终端两级化布局逐步形成。现有大模型业务模式主要包括与大模型直接交互和基于大模型能力的产品改造。前者以猎奇为主，短期并发难以持续，如 ChatGPT 的访问量增长率 1 月环比增长 131.6%，5 月下降至 2.8%。后者更多实现大模型与产品、业务流程的融合，将成为主流形态，如集成了 GPT4 的 Bing 搜索引擎用户访问规模已超 ChatGPT。随着多模态大模型逐步成熟，将推动 2B生产型和 2C 消费型流量渐成规模，以高频富媒体即时交互为主，业务应用调用多个专业大模型成为主要方式，驱动分布式推理智算中心下沉，中心（训练）-边缘（推理）将成大模型的主流部署方式。此外，随着大模型轻量化处理、终端性能的持续提升，大模型从云端到终端部署渐成发展趋势。截至 2023 年 2 月国内存量手机终端智能算力总规模是我国数据中心算力总规模 12 倍以上，相当于近一百万片英伟达 H100 芯片算力[21]，大模型的云-边-端协同应用将在未来几年快速发展。

3.趋势 3：普惠泛在的智算服务生态正逐步构建

智能算力使用具有周期性，复用难。AI 大模型以“大规模预训练﹢微调”为主，前期预训练工作量大，且需要高性能大算力 AI 芯片支撑，算力需求呈现周期性，后期推理算力对芯片计算能力要求相对较低。智算中心的算法模型、AI 架构定制化程度高，其他场景难以复用。据 IDC 调研，超过 80%的受访组织表示会考虑购买预先训练好的人工智能模型，但未来 2-3 年私有化部署仍将是整个智算市场的主流。由于当前国内高性能芯片受限、智能算力建设及使用门槛高等原因，借助平台调度实现算力错峰使用，并整合数据集、组件、算法模型提供平台级服务，可实现全社会算力服务普适、普惠和高效利用，因此成为业界运营智算中心的趋势。

地方政府主导建设公共算力服务平台，提供普惠算力。算力服务多以场景化云服务的形式交付，用户按业务需求采购算力、存储、带宽等专业服务，实现无处不在的计算，服务模式将从“资源式”向“任务式”转变。政府以城市为单位建设公共算力服务平台，用于连接社会多方智算中心，主要面向中小型企业或科研机构提供普惠算力，同时助力当地人工智能产业孵化，如上海公共算力服务平台、北京多元智算中心等。现有智算中心的软硬件通用性和兼容性较低，需要进一步推动产业链上下游开放协同，实现不同品类、不同技术路线的芯片、算法、模型、应用等要素实现“横向”兼容、“纵向”耦合，确保各层次灵活构建，降低迁移应用门槛，共同推动行业赋能。

4.趋势 4：确定性、高性能网络助推大规模智算集群构建

智算中心内网络无损高速互联是关键。大模型对数据中心内网络的传输效率有着严格的要求。一是网络丢包 0.1%会导致算力损失 50% （华为实验数据），对于一个可以承载 1.6 万卡的集群而言，近 10 万个光模块平均 4 天左右就会有故障发生。二是面对千亿、万亿参数规模的大模型，训练过程中通信占比最大可达 50%，仅单次计算迭代内梯度同步需要的通信量就达百 GB 量级。因此，无阻塞、高吞吐量成为面向大模型训练的智算中心内网络的核心诉求。

智算中心间确定性、无损网络研究，是实现跨域多元算力整合的关键。现阶段大模型的训练、推理主要在单一智算中心内进行，未来随着大模型发展以及训练任务的增多，单点算力资源无法满足训练需求，需要将物理位置上分散、归属于不同方所有的多个智算中心之间构建高性能互联网络（DCI），从而整合成一个更大规模的虚拟智算中心以期达到智算中心内部无损网络传输水平。当前中国电信已完成单波 400Gbit/s、传输容量 44Tbit/s、传输距离 1050km 的传输系统，创造了实时光传输容量距离积的新世界纪录（46.2Pbit·km/s），为部署 400G 光传输骨干先现网提供了实验验证[22]；自研算力网关在东数西渲等业务场景中，解决跨域算力调度。鹏城实验室开展深圳和广州超算 10 TB 全光网络互联研究。

5.趋势 5：低碳化发展格局需创新智算-电网协同模式

绿色电力不产生碳排放，助推智算中心零碳运营。中国工程院院士戴琼海表示，预计 2030 年智能计算年耗电达到 5000 亿度，占发电总量 5%。根据斯坦福人工智能研究所的研究数据，OpenAI 的 GPT-3 单次训练耗电量高达 1287 兆瓦时，相当于 120 个美国家庭 1 年的用电量、10000 辆特斯拉跑满 10 万公里消耗的电量，而这仅仅是训练 AI 模型的前期电力，占模型实际使用时所消耗电力的 40%。作为用电大户，智算中心必须因地制宜利用各种可再生能源，针对地域、时间、天气等对绿电供给影响较大的问题，通过储能、源网储荷一体化等方法应对。

零碳是智算中心发展的长远目标。零碳是指直接或间接产生的温室气体排放总量，通过节能减排、清洁能源、碳交易等方式进行正负抵消，实现总碳排放为零。一是通过减碳，运用技术手段降低用能、提高能效、提高绿色能源使用等；二是通过碳抵消，购买绿电、绿证等来进行碳排放的消纳。谷歌宣布计划 2030 年实现零碳运营，开发并部署了碳智能计算平台，通过获得各国与地区历史、实时和未来 24 小时内每小时电力能源结构及碳强度，通过在时间或空间上转移计算任务，实现计算任务与低碳电力供应的最佳匹配。

参考报告

智算产业发展白皮书（2023年）.pdf
- 查看报告