竞争问题突出,存在盲目投资和经营风险。
随着“东数西算”工程的实施,算力基础设施建设迎来快速发展机遇的同时,也对算力 服务提出了更高的要求。当前,在以数据中心为主要载体、跨区域算力需求不断增长 的背景下,算力服务仍面临资源使用效率不高、场景实现成本不菲、网络时延传输不 畅、供需匹配不力、体系安全布局不密等现实挑战。
竞争问题突出,存在盲目投资和经营风险。预计到 2025年国内 IDC机架将是现在 3倍。 西部 6 省市(宁夏、甘肃、内蒙古、贵州、四川和重庆)规划远超预期,2025 年机 架有望增至 362 万架(5 年增长 9 倍),全国占比达到 41%(5 年提升 30pp)4 。但 与此并存的是现有数据中心资源利用不充分。一方面,国内现有数据中心存在“重建 轻用”现象,造成了数据中心资源的浪费。《2021 年中国数据中心市场报告》显示,目 前全国数据中心整体上架率仅为 50.1%。以上海为例,据《2020-2021 年上海及周边 地区 IDC 市场研究报告》显示,2020 年上海地区 IDC 机房平均空置率为 16.4%,部 分数据中心空置率甚至超过了 40%5 。另一方面,全国数据中心空间利用率尚不均衡,华 东、华北、华南地区数据中心上架率约在 65% 至 68%,华中地区为 39%,而西部地 区的西北和西南分别为 34% 和 41%,低于平均水平,远低于东数西算起步期上架率 水平(65%)6 的建设目标。
场景实现成本不菲。一是网络传输价格较为高昂。“东数西算”各类场景需要大量的网 络传输服务进行支撑。然而,目前网络通信价格仍然偏高。据测算,带宽为 1Gbps 的 网络传输专线费用约为 16 万元 / 月,超过某些计算场景总成本的 75%,若提升带宽至2.5Gbps 或 10Gbps,其费用将进一步大幅增长,可能高于东部企业可以承受的网络 费用成本 7 。二是部署成本难现优势。除了网络传输成本,“东数西算”涉及的算力网络 建设成本也比较高。比如如果在北京、内蒙古租用同样的机架,叠加长途带宽费用后,内 蒙古园区相比北京园区可能并不具有成本优势。同时,西迁意味着业务架构需要重构,在 IT 侧技术和投资方面存在新的压力。
网络时延传输不畅。西部数据中心向东部提供算力,因距离原因存在网络时延。根据《全 国一体化大数据中心协同创新体系算力枢纽实施方案》,数据中心端到端单向网络时 延原则上在 20 毫秒以内;车联网、联网无人机、智慧电力、智能工厂、智能安防等 实时性要求高的业务需求,时延原则上在 10 毫秒以内 8 。经测试,贵阳到东部某城市 的时延最低为 36 毫秒,通过网络加速等技术手段,最低可降至 28 毫秒,但距离承接 东部时延敏感算力需求还有较大差距 9 。
“数”“算”供需匹配不力。一是算力资源调度问题。“东数西算”涉及的数据类型多样、业 务需求各异。CPU、GPU、FPGA、DPU、专用加速器等对处理不同种类的数据各有 优势与劣势,也有运营成本高低之分 10。目前,在异构算力层面仍然缺乏整体有效调 度机制,面对各种东部城市不同的算力需求场景时,难以快速合理精准地匹配算力资 源,网络性能、算力实时性、数据安全等各方面仍面临挑战。二是算力网络长效运行 机制仍需探索。算力网络的核心是复杂巨系统的多资源联合优化,复杂巨系统的多目 标联合优化,确保实时的、全网的、面向任务调度的 QoS11。与电力系统完善的分级 调度不同,算力网络调度机制实践难度很大。如何开展多层级的面向性能、价格、效 益等多方面的测算,形成真正的应用需求供给和可持续的长效动力机制仍需探索。
体系安全布局不密。一是国产化适配与替代问题。2022 年 8 月 31 日,美国政府下令 英伟达、AMD 等停止向中国销售部分高性能 GPU。GPU 芯片可被用于加速人工智能 任务,是 AI 系统训练的关键,也是“东数西算”诸多场景的基础。在这样的环境下,“东 数西算”工程对国产化基础软件服务能力提出更高要求。而目前部分应用仍缺少相应的 国产化软件适配、灵活部署以及服务能力,难以针对各类场景形成针对性的解决方案。 二是数据安全问题。“东数西算 ” 工 程八大枢纽节点协同联动,工程体系庞大、结构 复杂,算力网络的海量数据、多种类算力资源与网络基础设施对数据安全带来了全新 挑战和更高的要求。一方面,算力网络中的巨大数据交换共享形成更大吞吐量,容易 增加网络面和暴露面,还易面临篡改和窃取风险。另一方面,“东数西算”背景下原本 独立运行的业务系统和网络需要对接,有可能造成系统应用和数据暴露面增加,催生 更多数据安全风险。三是网络安全问题。开源组件在每个行业都被广泛使用,并且是 当今所有应用程序的构建基础。应用安全公司 Synopsys 最新发布的《2023 年开源安 全和风险分析》(Open Source Security and Risk Analysis,OSSRA) 报告指出,绝 大多数代码库 (84%) 至少包含一个已知的开源漏洞,相较去年增加了近 4%12。在“东 数西算”工程中涉及的数据开放共享、算力开放应用、算网协同运营等环节,具有支撑 作用的网络基础设施以及网络环境方面的安全防护能力存在挑战。
算力调度是解决算力供需矛盾、算力网络传输问题、算力资源普惠问题的新型能力体系。 算力调度根据算力资源提供方的供给能力和应用需求方的动态资源需求,整合区域内 算力基础设施底层的计算、存储、网络等多维资源,基于算力调度平台对算力资源进 行一致性管理、一体化编排和统一调度,实现跨行业、跨地区、跨层级的算力资源的 协同联动与精准匹配。2022 年,国家“东数西算”工程正式实施,算力资源的精准智能 调度成为保障“东数西算”工程实施的关键核心问题之一。
算力资源跨网、跨行业、跨区域调度。从算力布局看,构建国家一体化大数据中心 体系和“东数西算”工程的实施,奠定了以国家算力枢纽为核心的全国一体化算力网络 格局。“东数西算”工程覆盖地域广、涉及领域多,且需要多云之间、云数之间、云网 之间的高效互联,和国家算力枢纽节点之间的相互配合以及考虑运营成本等问题。 从算力服务业务角度看,不同场景下的计算任务对算力资源、算力规模、数据传输效率等侧重点各有差异,而节点间的高速互联、计算节点的增减、网络计算性能等 均对数据流通效率和算力资源调度带来影响。围绕全国一体化大数据中心建设重大 工程,在全国布局 10个左右区域级数据中心集群和智能计算中心,以匹配双碳要求、资 源高效利用的要求,通过算力网络智能调度实现算力的全网共享和布局优化,实现 东数西算、东数西训、东数西存,使能数字经济的高质量发展。全国一体化大数据 中心建设提出“国家枢纽节点之间进一步打通网络传输通道”“优化东西部间互联网络 和枢纽节点间直连网络”“提升跨区域算力调度水平”,算力网络智能调度根据全域 实时的算、网、数资源以及云、边、端分布情况,灵活、动态地计算最优协同策略 与调度路径,实现多云之间、云和数据中心之间、云网之间算网协同,算力资源跨 行业、跨区域、跨层级的智能管控和统一协同调度。
对多样性算力资源进行灵活按需匹配和调度。通用计算、人工智能计算、超级计算等 多样性算力资源智能匹配与调度全面发展,自动驾驶、远程医疗、工业自动化以及高 精度的物理模拟、大规模的社会科学模型等复杂应用场景对网络和计算资源的需求不 断提升。算力网络智能调度涉及全局资源感知、资源采集、统一管控、统一注册 / 建 模 / 度量、最优化灵活调度、计费与结算、生命周期管理等多方面,通过对全局异构 算力资源自动感知,根据算力和网络部署状况,进行全局的编排调度,面临多样性算 力接入适配、算力资源调度路径、算力度量等问题,按需自动创建面向应用的全局多 级算力资源自动分配调度、算网一体化服务编排、动态弹性算力和网络资源的协同调 整,实现对泛在的多样化算力资源的统一管理和动态调度。
算力经济建设的核心是算力设施设计与建设,这离不开算力相关半导体人才梯队的 搭建与培养,正如在《2023 年度中国大陆地区集成电路人才供需报告》所提到的,需 要持续投入和产学研用一体式协同推进。一方面,高校、高职等相关学校,要建立 “EDA- 设计 - 流片 - 封测 - 系统应用”综合实践平台,培养行业上下游产业链相关 人才和高中低阶人力培养体系,另一方面,企业应该加强与院校合作推广订单式培 养模式,形成人才合作及供需联动机制。
一方面,多维度打造算力技术人才培养生态。算力是数字技术创新的高地,随着算力 需求日益增长,对大数据、云计算和人工智能等相关技术领域人才供不应求。人社部中国就业培训技术指导中心《新职业在线学习平台发展报告》指出,未来 5 年,大数 据、云计算产业人才缺口将高达 150 万。弥补算力技术人才缺口的关键在于多维度打 造人才培养生态。一是支持高校、科研机构设立大数据、云计算、人工智能等算力相 关专业,加强专业人才培养。二是鼓励龙头企业、科研机构、高校联合成立算力研究 机构,支撑人才培养。如中国联通宁夏分公司、宁夏大学等单位共同发起成立“宁夏东 数西算产融研究院”,下设产业规划研究中心、人才发展中心等,积极推进东数西算领 域的前沿研究、人才培养。三是依托计算中心,强化创新人才培养。如武汉人工智能 计算中心陆续孵化出紫东太初等大模型团队,而 2017 年成立的中科曙光书院,先后携 手郑州大学、深圳理工大学等众多高校,在先进计算、人工智能、大数据等领域开展 人才联合培养计划。 此外,为响应教育部职业技术教育中心“1+X”证书制度试点工作,中科曙光推出的“人 工智能系统平台实施”职业技能等级证书成功入选教育部全国第四批“1+X”试点证书 名单。由中科曙光公司编著的“1+X”指定教材《人工智能系统平台实施中级》顺利出 版,切实推进人工智能等算力领域人才培养和发展。
另一方面,汇聚群策群力营造算力应用人才培育生态。随着算力服务应用领域不断 拓展,智慧能源、智慧医疗、智能网联汽车、智慧物流、智慧金融等特色应用层出 不穷。不同场景对算力需求不同,在保证通用算力服务的同时,针对具体应用场景 需求,充分优化专业应用性能是算力发展的方向。因此,各领域亟需算力应用复合 型人才。可探索成立新型研发机构、举办计算应用大赛等多种方式营造算力应用人 才培养生态。鼓励算力企业、应用企业、行业协会、高校、科研机构联合建立行业 算力应用中心,培育算力应用人才。如苏州协鑫能源计算中心、中移铁通智慧铁路 边缘数据中心等,聚焦特定行业应用,在应用中培养复合型人才。计算应用大赛、计 算应用论坛等也是促进高水平复合型算力应用人才培养的良好路径。如面向全社会 科技从业者及爱好者的“先导杯”计算应用大奖赛,至今已连续举办三届,共吸引来自 清华大学、北京大学等重点高校科研机构、知名企业的 3000 名选手 2300 支队伍参 赛,很好发挥了对计算应用、科技创新的引领带动作用。
“十四五”国家信息化规划文件指出,建设完善一体化算力服务。加强云资源接入和一 体化调度,推动政务、科学、教育、医疗等公共算力服务资源整合开放,构建低成本、广 覆盖、可靠安全的公共算力服务,促进算力的普及应用。
算力服务本质是以多样性算力为基础,以算力网络为连接,以供给有效算力为目标的 算力产业新领域,通过全新计算技术实现异构算力任务式统一输出,并与云、大数据、AI (人工智能)等技术交叉融合,最终将算力、存储、网络等资源统一封装,以服务形式(如 API)完成算力交付。目前产业内虽进入算力服务相关技术快速落地期,但面向算力服 务的定义、场景、需求与技术框架尚不清晰,亟需产业共同制定、研究相关标准规范。 总体来看,结合算力服务核心内涵,算力服务的标准制定应当从基本框架、应用服务、技 术能力、基础资源四个方面进行。一是基本框架,主要包括算力服务概念定义、服务 化过程基本模型等内容,用于明确算力服务基本概念与流程要求;二是应用服务,主 要包括多场景下的算力服务化应用方式能力要求,如算力互联互通场景下的算力调度 能力要求、网络互联要求等;同时也包括异构算力服务化平台应用能力要求,如高性 能计算平台、智算平台等;三是技术能力,主要包括服务化技术能力相关要求,如编 排调度、控制与转发、运营运维等方面,用于为上层服务化能力输出铺设中层技术基础; 四是基础资源,主要包括如 GPU、FPGA等在内的异构算力资源服务化应用能力要求,用 于为算力服务输出多样化异构算力服务。