智算发展呈现出哪些新趋势?

最佳答案 匿名用户编辑于2023/10/31 15:20

以下是关于智算发展五大新趋势的介绍,如果有兴趣了解更多相关的内容,请下载原报告阅读。

1.趋势 1:国产多元异构算力融合推动智算长效发展

大模型发展推动 CPU、GPU、DPU 等“XPU”异构算力融合。 一方面,模型训练、边缘推理、数值模拟等不同智能应用需要智算中 心提供不同的算力,如自动驾驶、智慧医疗等场景既需要高精度通用 算力也需要低精度专用算力[20]。另一方面,随着多模态大模型流量规 模增长,CPU、GPU 需要拿出更多精力处理数据传输,需要利用 DPU 减负,从而更好地处理“本职工作”。中国电信自研紫金 DPU 实现 服务器虚拟化零损耗,全面释放算力,同时网络 PPS 性能翻倍、存储 IOPS 性能提升两倍、网络时延降低至原来的四分之一。

高端 AI 芯片国产化能力是我国智算产业长效发展的关键。一方 面,我国 AI 芯片需求增长迅猛,华为数据显示,我国对人工智能芯 片的需求半年内增长了十倍以上;IDC 预测,未来 18 个月,GPU、 ASIC 和 FPGA 等 AI 芯片搭载率将持续增高。另一方面,我国高端 AI 芯片性能与国际领先水平仍有差距,对美国依赖较大。随着美国 对中国高端 AI 芯片的管制进一步加强,如英伟达等厂商对中国(含 香港)禁运高性能 GPU,需要我国持续加强芯片技术攻关,提升 GPU 的国产化替代能力。

2.趋势 2:智算从单节点向区域化协同、边端部署演变

大模型驱动的智算成为东数西算的最佳实践。由于异构算力封装、超大带宽和超低延迟传输网络技术仍未解决,以当前模型训练参数量 (千亿级)为参考,大模型训练等的 AI 计算基本依靠单智算中心完 成,且基本集中在同构智能算力中心。智算中心选址多位于东部地区, 东部区域在传统数据中心建设方面,由于受能耗、成本等因素的影响 发展放缓,但各地政府为实现大模型的创新培育与产业聚集,短期内 将主导智算中心发展,形成布局一线及省会城市。长期来看(5 年以 上),受成本、双碳目标以及业务模式等因素影响,集约、规模化的 智算中心向全国一体化枢纽节点布局的趋势不会改变。未来随着计算 机视觉、科学计算等多模态大模型的发展以及参数量的规模增长(万 亿以上),将带动东数西训、东数西渲成为东数西算场景落地的最佳 实践,并呈现两大趋势:一是大模型演进为多个智算中心分布式训练, 且此时智算中心间可以通过全光网等方式实现 us 级时延,智算中心 间交互带宽达 T 级别以上;二是业务应用调用多个专业大模型,可能 形成云计算中心与智算中心间一对多的互联需求,流量规模增长。西 部地区具备发展智算中心、承接东部算力需求的潜力,东西跨区域协 同将更加突出。

训练-推理的集中-边缘/终端两级化布局逐步形成。现有大模型 业务模式主要包括与大模型直接交互和基于大模型能力的产品改造。 前者以猎奇为主,短期并发难以持续,如 ChatGPT 的访问量增长率 1 月环比增长 131.6%,5 月下降至 2.8%。后者更多实现大模型与产品、 业务流程的融合,将成为主流形态,如集成了 GPT4 的 Bing 搜索引擎 用户访问规模已超 ChatGPT。随着多模态大模型逐步成熟,将推动 2B生产型和 2C 消费型流量渐成规模,以高频富媒体即时交互为主,业 务应用调用多个专业大模型成为主要方式,驱动分布式推理智算中心 下沉,中心(训练)-边缘(推理)将成大模型的主流部署方式。此 外,随着大模型轻量化处理、终端性能的持续提升,大模型从云端到 终端部署渐成发展趋势。截至 2023 年 2 月国内存量手机终端智能算 力总规模是我国数据中心算力总规模 12 倍以上,相当于近一百万片 英伟达 H100 芯片算力[21],大模型的云-边-端协同应用将在未来几年 快速发展。

3.趋势 3:普惠泛在的智算服务生态正逐步构建

智能算力使用具有周期性,复用难。AI 大模型以“大规模预训 练﹢微调”为主,前期预训练工作量大,且需要高性能大算力 AI 芯 片支撑,算力需求呈现周期性,后期推理算力对芯片计算能力要求相 对较低。智算中心的算法模型、AI 架构定制化程度高,其他场景难以 复用。据 IDC 调研,超过 80%的受访组织表示会考虑购买预先训练好的人工智能模型,但未来 2-3 年私有化部署仍将是整个智算市场的主 流。由于当前国内高性能芯片受限、智能算力建设及使用门槛高等原 因,借助平台调度实现算力错峰使用,并整合数据集、组件、算法模 型提供平台级服务,可实现全社会算力服务普适、普惠和高效利用, 因此成为业界运营智算中心的趋势。

地方政府主导建设公共算力服务平台,提供普惠算力。算力服务 多以场景化云服务的形式交付,用户按业务需求采购算力、存储、带 宽等专业服务,实现无处不在的计算,服务模式将从“资源式”向“任 务式”转变。政府以城市为单位建设公共算力服务平台,用于连接社 会多方智算中心,主要面向中小型企业或科研机构提供普惠算力,同 时助力当地人工智能产业孵化,如上海公共算力服务平台、北京多元 智算中心等。现有智算中心的软硬件通用性和兼容性较低,需要进一 步推动产业链上下游开放协同,实现不同品类、不同技术路线的芯片、 算法、模型、应用等要素实现“横向”兼容、“纵向”耦合,确保各 层次灵活构建,降低迁移应用门槛,共同推动行业赋能。

4.趋势 4:确定性、高性能网络助推大规模智算集群构建

智算中心内网络无损高速互联是关键。大模型对数据中心内网络 的传输效率有着严格的要求。一是网络丢包 0.1%会导致算力损失 50% (华为实验数据),对于一个可以承载 1.6 万卡的集群而言,近 10 万个光模块平均 4 天左右就会有故障发生。二是面对千亿、万亿参数 规模的大模型,训练过程中通信占比最大可达 50%,仅单次计算迭代内梯度同步需要的通信量就达百 GB 量级。因此,无阻塞、高吞吐量 成为面向大模型训练的智算中心内网络的核心诉求。

智算中心间确定性、无损网络研究,是实现跨域多元算力整合的 关键。现阶段大模型的训练、推理主要在单一智算中心内进行,未来 随着大模型发展以及训练任务的增多,单点算力资源无法满足训练需 求,需要将物理位置上分散、归属于不同方所有的多个智算中心之间 构建高性能互联网络(DCI),从而整合成一个更大规模的虚拟智算 中心以期达到智算中心内部无损网络传输水平。当前中国电信已完成 单波 400Gbit/s、传输容量 44Tbit/s、传输距离 1050km 的传输系统, 创造了实时光传输容量距离积的新世界纪录(46.2Pbit·km/s),为 部署 400G 光传输骨干先现网提供了实验验证[22];自研算力网关在东 数西渲等业务场景中,解决跨域算力调度。鹏城实验室开展深圳和广 州超算 10 TB 全光网络互联研究。

5.趋势 5:低碳化发展格局需创新智算-电网协同模式

绿色电力不产生碳排放,助推智算中心零碳运营。中国工程院院 士戴琼海表示,预计 2030 年智能计算年耗电达到 5000 亿度,占发电 总量 5%。根据斯坦福人工智能研究所的研究数据,OpenAI 的 GPT-3 单次训练耗电量高达 1287 兆瓦时,相当于 120 个美国家庭 1 年的用 电量、10000 辆特斯拉跑满 10 万公里消耗的电量,而这仅仅是训练 AI 模型的前期电力,占模型实际使用时所消耗电力的 40%。作为用电 大户,智算中心必须因地制宜利用各种可再生能源,针对地域、时间、天气等对绿电供给影响较大的问题,通过储能、源网储荷一体化等方 法应对。

零碳是智算中心发展的长远目标。零碳是指直接或间接产生的温 室气体排放总量,通过节能减排、清洁能源、碳交易等方式进行正负 抵消,实现总碳排放为零。一是通过减碳,运用技术手段降低用能、 提高能效、提高绿色能源使用等;二是通过碳抵消,购买绿电、绿证 等来进行碳排放的消纳。谷歌宣布计划 2030 年实现零碳运营,开发 并部署了碳智能计算平台,通过获得各国与地区历史、实时和未来 24 小时内每小时电力能源结构及碳强度,通过在时间或空间上转移计算 任务,实现计算任务与低碳电力供应的最佳匹配。