可以从算力集群化、算力 系列化、高质量数据、应用快速迭代、高质量数据通信这 5 个方面来分析在 AI 大模型加速行业智 能化背景下,企业对 ICT 基础设施的需求。
因为总部和区域(或领域)需要做模型训练和 推理资源池,有建设大规模 AI 算力的需求。 单卡性能增长有限,想要增加性能,只有集群 的模式满足大算力的需求。AI 集群是个系统工 程,需要兼顾计算、网络、存储等的跨域协同 及优化,助力企业构筑高效协同的算力集群。 AI 集群建设有如下 3 大技术需求: 首先,需要大规模集群能力,并支持弹性扩展。 总部需要部署高阶模型,不同的高阶模型对算 力要求不同,百亿参数百张卡,千亿参数千张 卡,万亿参数万张卡。
其次,集群需要实现低时延、大带宽、高可靠 的网络。 训练集群网络的丢包率会极大影响算力效率, 零丢包是训练集群网络的基本要求。万分之一 丢包,算力降低 10%;千分之一丢包,算力降 低 30%。 面对千亿、万亿参数规模的大模型训练,仅仅 是单次计算迭代内梯度同步需要的通信量就达 到了百 GB 量级,此外还有各种并行模式、加 速框架引入的通信需求,使得传统低速网络的 带宽远远无法支撑集群的高效计算。因此要充 分发挥计算资源的强大算力,必须构建一个全新的高性能网络底座,用高速网络的大带宽来 助推整个集群计算的高效率。
在大模型的训练和推理中,集群间的多卡通 讯频繁,对时延敏感。以推理为例,多卡低 时延通信挑战:低时延推理需要采用多卡模 型并行来分担参数和 KV 缓存,提升等效的 HBM 带宽;Decoding 阶段引入大量小数据 包 allreduce 集合通信;例如 GPT-3 175B, 每 个 token 需 要 192 次 allreduce 通 信, 在 BatchSize=1、FP16 计算精度下每次业务包 仅为 24KB,对通信时延极其敏感。 最后,在存储方面,大模型基于算力和数据驱 动,通过高频迭代学习,强化模型效果 , 需要 实现大容量、高带宽、高 IOPS、高可靠。需 求一,大容量:参数规模大、单模态走向多模态, 对存储容量带动数据存储从服务器本地盘走向 外置存储,且要求按需扩展。需求二:高带宽、 高 IOPS:Checkpoint 模型数据集需要快速保 存,需要大带宽的存储写入能力;为保障训练 效率,需要加速加载海量小文件训练数据、减 少 GPU 卡空载等待时间、提升算力利用率。需 求三,高可靠:长时间训练过程中,存储的高 可靠性直接影响模型参数的准确性和训练效率。
基于前述的部署范式,企业总部需要构建共享 的高阶模型训练和共享推理资源池,根据不同 的业务需求需要使用 AI 算力集群、训练服务 器、推理服务器、训推一体机来建设训练中心 和推理中心。比如自行构建万亿参数的大模型, 需要万卡级规模的 AI 算力集群;构建千亿参 数的大模型,需要千卡级规模的 AI 算力集群; 基于预训练的大模型构建百亿参数的模型,需 要百卡规模的 AI 算力集群。
区域需要建设低阶模型训练和较小的推理算 力,不同企业区域业务规模、业务种类差异大, 对算力需求差异大。需要使用 AI 算力集群、 训练服务器、推理服务器、训推一体机来建设 训练中心和推理中心。比如总部构建的模型已 覆盖大部分业务,区域只需要针对差异化的业 务基于总部预训练的模型做差异化的训练,训 推一体机即可满足。 边端侧算力需求小,同时有环境限制,需要使 用不同规格的推理服务器、推理模块、终端内 嵌的推理算力几种方式来满足工业生产现场、 野外、本安、工地等差异化的业务场景诉求。 边缘设备需要具备边缘自治能力,实现边端侧 业务自闭环。比如野外环境恶劣,在网络中断 的情况下,需要提供可靠的本地 AI 推理能力、 快速切换故障节点,保障业务不中断。
数据将是构建大模型竞争力的核心要素,高质 量的行业数据尤为稀缺,从企业外部采购数据 成本高,行业先锋都需要打造自已的数据飞轮, 将海量数据采集好、管理好,支撑行业智能化。 行业大模型的训练和推理都需要高质量的行 业数据来支撑。训练、推理数据不单有 IT 数 据,还有 OT 数据,OT 数据是指由操作技术 (Operational Technology) 产 生 的 数 据, 包括来自工业控制系统、物联网设备、传感器 和其他 OT 设备的数据。OT 数据的实时采集 和管理为大模型提供高质量的数据集,驱动“数 据 - 模型 - 应用”飞轮,让模型更好用。
高质量的数据需要统筹规划感知、存储、网络、 数据治理、数据安全,需要做好整个系统的顶 层设计和各个子系统的协同。有 5 大技术需求: 首先,需要感知层全面采集 OT 数据和接收任 务命令。在 OT 数据的采集和上传上,行业的 传感器、仪表和设备数字化和智能化参差不齐, 普遍存在智能化和智能化改造的诉求:一些仪 表还是机械式、模拟式仪表,无法提供智能化 输出;OT 现场设备联网的挑战是“有线联网难、 无线联网慢”,导致 OT 设备联网率很低,即 使是一些已经联网的仪表、传感器,也仅仅支 持本地互联,感知数据仅用于有限场景,在本 地经过处理的结果向上级系统提供,原始的感 知数据不上传;一些设备(仪表、传感器 ) 对 外连接七国八制,集成复杂,可用性低,导致 数据无法及时、全量上传,数据采集时间无法 对齐,数据无法支撑智能 AI 训练;需要智能 化的终端,通过智联操作系统,将协议复杂、 系统孤立的终端有机协同起来,实现对同一感 知对象的联动感知能力,做到 “一碰传、自动 报”,以满足更加复杂、高精度、高速度、智 能化和协同的作业要求。
其次,需要大容量、支持访问协议多样化的存 储。OT 数据量大,文件格式多样,训练前需 要从跨域多系统将大量的 OT 样本数据上传到 模型训练中心,对存储要求高。需要存储提供 大容量、支持从跨域多数据源拷贝 PB 级原始 数据以及访问协议多样化。 再次,构建 IT 与 OT 融合的扁平化工业网络对 于工业企业而言意义非凡,将真正实现“数据 上得来、算力下得去、上下游贯通”。数据上 得来:数据“逐层上送”的过程中,每一层的 数据传递过程都存在较多的数据信息损失,因 此工业企业需要打破层级壁垒,解决跨系统数 据流转难问题,实现数据直采。算力下得去: 算力下沉至边缘 / 端侧,让工业数据与 AI、算 力相融合,帮助工业企业实现 AI 质检、智能 排产、工艺优化等创新应用。上下游贯通:通过生产现场进度与客户实时共享、产品设计方 案与合作伙伴共享等上下游的连接和协同,帮 助工业企业与客户、合作伙伴之间建立更紧密、 更坚固的纽带。
第四,工业企业需要有效的数据治理,提供高 质量的数据,支撑大模型训练。IT 数据需要从 源头治理,制定数据标准,从应用规范、应用 产生开始治理,保障数据“优生”。传统数据 治理主要用于大数据业务,智能化时代数据治 理将为模型的训练和推理服务,因此数据治理 需要与 AI 打通。数据还需要进一步外溢和延展, 比如:企业的数据从局限于自身内部转变为企 业间数据协同、流通、共享与交易,便于在上 下游和产业间形成协同、在企业间和产业内形 成数据交易、数据经济和数据市场。 最后,数据安全作为数据价值化的基石,对于 保障商业秘密、企业数据主权,确保数据使用 合规至关重要。为此工业企业需要构建事前预 防、事中预警、事后追溯的全套数据安全能力, 让数据使用更安全。
随着 AI 技术的发展、智能化应用的深入,应 用场景变得更多元、更复杂。每个行业的应用 场景都有成百上千,每个子场景对 AI 模型的 泛化性要求不同,在特定的场景,需要对 AI 模型进一步优化和重构,以适应生产环境。比 如:在工业场景下,有工业质检、安全巡检等 应用,质检子场景中生产线要适配不同的订单, 生产的零部件千差万别,安全巡检子场景中巡 检区域可能地形复杂多样并且自然环境恶劣。 在交通场景下,包含若干细分的子场景,以公 路子场景交通拥堵治理来说,每一个区域(车 辆数、拥堵点、停车场、周边路网承载力), 每一个路口(全时、全域、全要素状态、事件、 行为),每一辆车(出行、时间、地点、路线) 情况和需求不尽相同,复杂多变。
这些多元复杂的场景,都提出了对 AI 的需求, 在将 AI 应用于这些场景过程中,即使有自动 化程度很高的工具,在传统的 AI 模型开发模 式下,也不得不逐个定制开发,如同作坊式开 发,投入人力多,开发周期长,再加上 AI 人 才供给不足,导致 AI 算法开发产能不能满足 行业智能化的需要。大模型为解决这类问题提 供了很好的方案。有了预先训练好的大模型, 每个场景化 AI 开发,都不必再从 0 开始,而 是基于大模型做增强训练,并自动化抽取出适 合该场景部署的小模型,开发周期从月级缩短 为天级,相对于以前的作坊式开发,AI 工业化 开发效率可以提升 10~100 倍,实现了 AI 模 型从作坊式开发到工业化开发的转变。但这样 的开发效率需要高效的开发工具链支撑,需要 做到针对不同业务场景需求,快速响应、动态 按需适配,实现从需求到智能化应用的快速迭 代、敏捷应用短闭环。
具体来说,智能化应用的开发工具链需要满足 以下 4 个关键需求: 首先需要大模型增强训练敏捷化,减少开发的 中间环节,让应用的使用者参与到模型的构建 中来,实现全民参与,贡献行业经验,加速 AI 算法的创新和孵化。模型开发工具链要能够支 撑从数据标注、模型选择、模型训练、模型评估、 模型部署到结果反馈全流程高效作业,降低开 发门槛。 其次需要应用开发敏捷化,从传统的“瀑布式” 开发走向敏捷式开发,支持低代码、零代码开 发,让业务人员可以直接参与开发。打通应用和 AI 开发工具,实现应用对 AI 算法的调用,使智能化应用的上线周期从月级跨越到天级,让应用 开发更加友好、简单。 再次需要数据与 AI 融合,打通数据库、湖、仓和 AI 开发平台之间的互访,让数据在多个引擎间能 够高效流转,实现一站式的 DataOps 与 MLOps,最终通过将数据和 AI 的能力整合,加速模型开发。 最后,通过将 AI 引入开发过程,提供代码和测试用例的智能生成、代码解释和代码翻译的智能交 互问答、需求获取和代码提交的智能协同,大幅提升开发效率。
海量数据是基础大模型训练、行业场景模型二次训练、模型持续迭代进化的“养料”,也是无所不 在的推理交互的输入输出。随着 AI 训练、推理走向“工业化开发、规模化应用”,训练集群内部 需要高效数据通信,两级训练三级推理部署范式之间的持续迭代需要高效数据通信,数据采集与推 理服务器之间也需要高效数据通信。
从总部到区域 / 领域、从区域 / 领域到边端,海量训练样本数据上传、模型推送与训练迭代、无所 不在的推理交互,都需要高质量的广域数据通信网络。以自动驾驶模型训练为例,每天有 1TB 的 样本数据需要上传到提供训练服务的数据中心,突发带宽高、潮汐效应明显,需要 10GE 接入、 400GE 汇聚的高速数据通信;训练生成的模型文件下推,需要广覆盖、大带宽、任务式的弹性数 据通信,灵活建立联接;千万应用场景的实时推理交互,需要低时延、高可靠、高并发的低时延数 据通信;为了提升投资效率,我们需要在一张数据通信网络同时支持多种应用,既要满足传统应用“万 物智联”的要求,也要满足 AI 时代“万智互联、万数智算”的要求。为此,我们需要引入超融合 以太 (HCE)、IPv6+、自动驾驶网络 (ADN) 等创新技术,打造新一代数据通信网络,面向行业智 能化提供弹性超宽、智能无损、自智自驭的数据通信基础设施。行业智能化基础设施的可持续发展, 还需要考虑数据中心的异地容灾、东数西算、协同计算,这就需要引入网络切片、OXC、网络数 字地图等技术,打造超大容量极低时延、应用感知体验保障、算网融合智能无损的 IP 骨干网络、 OTN 骨干网络,实现跨地域的实时算力调度、极速数据运送、高效协同计算。
与此同时,数据通信的安全至关重要。行业智能化时代,数据流量持续增长,加密威胁持续增加, 我们需要高性能、高弹性、高效拦截加密威胁的网络安全解决方案,为行业智能化保驾护航。 行业智能化时代,新一代高运力数据通信网络从“万物智联”走向“万智互联、万数智算”,成为 万物智联、弹性超宽、智能无损、自智自驭的关键基础设施。