计算发展愿景及关键特征总结

最佳答案 匿名用户编辑于2024/10/14 13:33

如果你对该问题感兴趣的话,推荐你看看《华为-2024版计算2030》这篇报告,下面是部分摘录的内容,具体请以原报告为准。

1.智能认知

智能认知是人工智能技术发展的高级阶段,使 机器成为人类改造世界、提升能力的得力助手。 过去十年,人类在在视觉图像、语音识别、自 然语言处理等多个感知智能技术领域取得了长 足进步,并在交通、制造、金融、智慧城市等 各行各业广泛应用。 未来五年,以 ChatGPT 为代表的生成式 AI 技术, 将变革人类社会,逐步跨入人工智能认知时代。 同时,当前的人工智能技术存在一些问题,如 能耗高、可解释性与鲁棒性差、缺乏知识利用 与逻辑推断能力等。类脑智能作为下一代人工 智能技术,为解决能效问题、鲁棒性等问题提 供新的可能。而知识计算的发展,让人工智能 具备知识利用和知识迁移推断能力,从而迈向 真正的人工智能。

1.1 生成式 AI

生成式 AI(Generative AI)技术作为最佳的自动 化内容生产力要素,允许计算机抽象与输入(例 如文本,音频文件或图像)有关的基础模式,使 用它来生成前所未有的新颖内容。它实现了从数 据到创意的飞跃,使智能体具备了模仿甚至超越 人类创造性的潜力。生成式 AI 能够显著提高生产 效率和质量,降低创造成本;生成个性化的产品 和服务,从而极大地丰富市场选择。未来,生成 式 AI 技术,将成为推动全球经济发展的新引擎。

1.2 自动自治 AI

目前,深度学习的开发及应用并未突破主流监 督学习的模式,数据清洗、数据标注,模型的 设计、开发、训练和部署等都需要大量人力投 入。人力标注无法应对数据的爆发增长 ( 十、 百亿级数据集)。迁移学习、小样本、零样本、 自监督、弱监督、半监督、无监督及主动学习 等新方法,将推动人工智能最终实现“自治”, 解决模型训练、迭代、设计对人工的依赖。未 来 AI 自治使得模型更加归一,多种任务共享相 同的模型结构,数据规模进一步扩大 ,99% 以上 的数据将是 AI 生成的。不再需要人工干预,模 型可以在线学习吸收新的数据知识,实现自身 能力的迭代提升。基础大模型的训练迭代周期, 将从几个月下降到天级。数据规模扩大及在线 学习将使模型的生产更加集约化,各行业的业 务模型会汇聚成几个甚至一个超大模型。

1.3 类脑智能

类脑智能作为实现下一代智能系统的重要技术 方向,将从类脑基础硬件、类脑芯片、类脑软 件框架、类脑模型与算法等多个方面对现有技 术进行颠覆式突破。 类脑基础硬件包含类脑传感器和类脑神经元和 突触模拟器件等,是设计类脑计算硬件平台的 基础单元。其中类脑视觉传感器将从实验室级 别的低分辨率逐渐发展到高分辨率(8k~)、高 帧率(1000Mfps~)、高抗噪性的视觉传感, 并借助类脑视觉传感、类脑多模态传感与传统 传感器的融合,实现大规模商业应用。 类脑芯片将进一步实现存算融合、众核异步、 在线学习等特性,构建传统 AI 芯片和神经形态 芯片的异构融合系统,单芯片神经元规模达到 100 万级,多片互联的神经元规模支持亿级, 神经形态计算的突触数量突破 100 亿,相比于 当代的 AI 芯片提升 100 倍以上能效。同时,基 于类脑芯片系统的配套软件框架将发展出完整 生态支持算法快速部署和优化。

类脑模型和算法方面,一方面大规模的脉冲神 经网络将从图像领域逐步扩展到多模态领域, 实现千亿级别参数的多模态脉冲大模型展现极 致能效;另一方面,为实现功能和能效的最优 平衡,将发展出非纯脉冲的,基于类脑神经元、 类脑突触融合现有深度学习框架的新型融合神 经网络,并催生脑启发的 Transformer-next 新 型架构。 整体看来,在短期内,类脑智能将融合传感器、 芯片、算法的研究成果,在端侧 / 边侧等能耗 敏感的场景中实现感存算一体的高效智能系统; 长期看有望结合深度学习的发展,并进一步借 鉴认知智能,实现实时相应、极高能效、可解释、 可信赖的 AI 系统,在端侧和云侧构建异构高效、 高智能系统。

2.内生安全

计算云化打破了传统安全边界,AI 大模型带来了 新的安全威胁,传统基于信任域划分的外挂式安 全防护方案已经无法应对各种新型攻击方法的挑 战。安全应该具备内生的特点;1)安全是系统 的内生能力,是芯片、固件、软件、模型必备的 基本特性;2)安全贯穿存储、计算、传输等数 据处理的全过程,以抵御各环节安全攻击;3) 硬件构建安全信任根,由于系统权限分级的原因, 安全功能需要基于硬件的最高特权来实现,才能 在操作系统及应用上提供可靠的安全服务,并且 通过硬件加速的方式来提升安全服务的性能。4) 安全开源开放,为了使安全服务能充分融入到各 个业务软件中,安全服务应以开源开放的形式提 供,让业务软件结合自身软件架构特点,将安全 特性融入到业务中,从而保证业务安全。

2.1 数字信任与隐私

在数据处理环节,本质是算法施加算力于数据。 如果这 3 个要素全部由数据所有者控制,则不涉 及数字信任与隐私问题;但云计算导致要素分离, 算法与算力都是由 CSP 提供,用户(数据拥有者) 需要上传数据到云端处理,即使用户信任 CSP, 也无法信任 CSP 拥有特权的管理员。因此云计算 场景下安全的主要挑战在于如何保护用户数据与 隐私,需要重建数字信任体系。

为重建数字信任体系各国政府相继出台数据保护 法,为数字信任体系的建立确立了法律依据。同 时,数字身份、数字证书与隐私计算成为重建整 个数字信任体系的关键技术,其中数字身份是数 据确权的基础,数字证书是保证数据安全的基础, 隐私计算可以在保护数据本身不对外泄露的前提 下实现数据分析处理: 因为历史原因,数字根证书都是由软硬件厂商 颁发,特别是可信计算、机密计算等根证书都 是固化在芯片内部,绑架了客户信任选择权。 因此建立开放的数字根证书基础设施,广大设 备制造商开放数字根证书导入能力,还信任选 择权于客户,是保证未来数字社会公平公正的 基础。

2.2 AI 安全可信

近年来 AI 日益在医疗、自动驾驶等关键领域的 普及应用。随着以生成式人工智能为根基的大 语言模型(Large Language Model)表现出强 大的对话、理解、推理、多任务能力,越来越 多的厂商正致力于在不同的场景、行业、领域 中基于 LLM 构建更为强大的 AI 应用。AI 作为 数字化变革的核心驱动力,AI 正在成为各行各 业重塑经济社会发展形态的智能化关键基础设 施,同时 AI 也面临日趋严峻的安全挑战:1) AI 模型和训练数据是 AI 应用厂商的核心资产, 如果保护不善可能被窃取或恶意逆向恢复。2) AI 模型本身存在脆弱性,导致针对 AI 模型的对 抗样本和药饵后门等攻击越来越多,在关键领 域中使用的 AI 模型被攻击导致误判将带来严重 后果。3)随着 AI 越来越强大,人类对 AI 顾虑 也日益增长,AI 监管合规与治理成为 AI 生态中 各参与方的必选项, 需要创新的技术手段支持 AI 治理、安全对齐、对多参与方的责任追溯。

2.3 新计算范式安全

在以内存为中心计算场景下,算力下移,特别 是内存计算 PIM 将算力下移到内存,导致传统 内存加密机制失效,无法部署基于硬件的隐私 计算技术。即使在应用层加密数据、数据处理 过程中,也将是明文状态,从而导致无法防止 特权用户、进程窃取数据。针对这种场景唯一 的选择是部署同态、多方计算等基于密码学的 隐私计算技术,从而建立用户对于算力提供商 的信任。 在多样性算力数据中心场景下,云化导致网络 安全边界模糊,传统的基于边界的安全防护模 式逐渐失去价值。针对这样的趋势,零信任安 全架构 [7] 通过强化访问策略、主动监测、加 密等技术以应对环境不可信的安全挑战。

3.绿色集约

全球数据中心能耗约占电力需求的 1%,通用计 算的总能耗每 3 年增长 1 倍,碳中和目标将驱 动算力提升百倍的同时提升能源效率。在芯片 上,新的封装和架构持续优化,不断提升算力 密度和能源效率,芯片出光减少高频数据交换 损耗。一体化数据中心利用人工智能实现供电、 服务器、负荷的协同,形成更优的 PUE,并不 断挑战 PUE 极限,甚至向小于 1 发起挑战。通 过算力网络将提供对等服务的分布部署的数据 中心资源统一起来,更好匹配时延、绿电、成 本等差异,达到全局最优的 PUE 和碳排放。

3.1 计算芯片工程

系统算力增长对芯片晶体管集成度需求持续 提升,先进工艺与芯片工程架构双轮驱动计算 芯片性能规格每代提升 ~2x,预计 2030 年单芯 片集成晶体管超万亿。受限于先进工艺微缩演 进速度影响,未来芯片将沿着 2.5D+Chiplet 、 3DIC、Wafer Scale Computing 系统融合三个 层次提升算力密度。

2.5D Chiplet 芯片架构 + 超大尺寸封装水平方 向持续提升单芯片算力和产品竞争力 传统芯片受 wafer(硅片)曝光尺寸限制(1 Reticle:25mm*32mm),芯片 Die 的尺寸及 Die 良率提升受到严重技术瓶颈,直接制约芯 片整体性能提升及芯片成本降低。 2.5D Silicon/FO Interposer+Chiplet 技术可以 有效提升 Die 良率、降低芯片成本,堆叠集成 实现更大规模芯片性能,且对于不同产品规格 应用更加灵活。同时 2.5D 封装性对于传统封装 板级互连方案单 bit 能耗降低至约 1/2。 预计 2027 年 2.5D Chiplet 集成 规格将超过 8x Reticle,单芯片尺寸预计会增加 ~3x。超大尺 寸的 2.5D 与封装基板应用直接面临良率、交期、 可靠性等一系列工程难题,融合创新基板架构 需求迫切。 预计 2030 年 3D 芯片技术走向多层逻辑堆叠,高层 Memory on Logic 堆叠,多层堆叠成为高 性能计算芯片性能提升的关键技术。

与 2.5D 先进封装及异质集成芯片技术相比, 3D 芯片技术在互连密度及带宽、芯片尺寸、功 耗性能、芯片综合性能方面优势显著,在垂直 方向持续提升单位投影区域芯片的晶体管集成 度,是解决未来高性能计算、AI 等关键场景芯 片与系统集成的核心技术。 未来会从 D2W(Die-to-Wafer,芯片到晶圆)- >W2W(Wafer to Wafer,晶圆片对晶圆片), uBump->Hybrid Bonding->Monolithic 3D 技术逐 渐演进,应用场景将会广泛覆盖 Logic on Logic、 3D Memory on Logic、及 Optical on logic 等,堆 叠从 2 层同质堆叠逐步走向更多层异质堆叠。 3D 互连 pitch 从 ump 级别微缩到 nm 级, 未来 5 年 1μm 甚至更小 pitch 超高密 Bonding 技术在 AI 等领域实现产品化。更小尺寸 TSV(Through Silicon Via,硅通孔)技术需要从材料、工艺基础 技术深入持续探索;同时 3D 堆叠带来局部功耗 密度和电流密度倍增,直接影响系统整体供电与 散热路径。3D 芯片相对于传统 2.5D 封装在带宽 及功耗性能优势显著,单 bit 功耗降低有望降低 至 1/10。

3.2 DC as a Computer

数据中心互连严重制约集群算力释放,亟需 互连技术创新 随着人工智能、超算、云等计算场景的快速发展, 未来将会出现百万级的数据中心。重点要解决 大规模分布式应用的算力效率问题,超级数据 中心的高能耗问题,端到端散热问题。 AGI 时代,数据中心的能耗将达 GW(十亿瓦特) 级,超过一个核电机组的供电能力,迫切需要 持续提升数据中心的能效,降低基础设施的供 电压力,匹配各国低碳数字经济的建设要求; 在总线互连层面,基于高速总线的超节点架构和资源池化提升算力效率;在 DCN 层面,芯 片出光、OXC 光交换技术的应用有望实现全光 DCN,结合 3D Fullmesh/Dragonfly/Torus 等 新型网络拓扑创新可减少 50% 以上光模块的成 本和能耗;广域超宽无损 DCI 能力的突破,支 持千公里级跨域并行训练(50Tbps DCI@70% 线性度),在区域电网容量约束下,实现跨域 训练成为可选方案之一。

 

以总线技术的发展为例,高速总线 C2C 读写时 延有望低于百纳秒,接近主存时延,预计 2030 年,400G/800G SerDers 将会进一步成熟,通 信协议具备内存语义和高速缓存一致(CacheCoherent)性,使超节点内部带宽达到 6.4T 以 上;通过计算池、内存池、硬盘池等资源池化, 形成集约化、按需组合的业务处理单元,提升 50% 以上利用率。 以降低 DCN 互连功耗为例,当前基于传 统胖树的 10 万卡集群总能耗中,互连(交换 机 + 光模块)能耗占比约 40%;在以 400G 和 800G 光模块为典型配置的 51.2T 和 100T 交 换机中,光模块加驱动 SerDes 的功耗占比在 40~45%。预计到 2030 年,在 400G+ SerDes 和 6.4T 光 模 块 代 际 时,OSFP 光 模 块 功 耗、 SerDes 驱动距离将成为很难突破的瓶颈,CPO (Co-Packaged Optics)可能会是一个比较 好的解决方案。LPO(Linear-drive Pluggable Optics) 与 OSFP(Octal Small form Factor Pluggable)相比因为去掉了 DSP 器件,虽然 节省了近 50% 的功耗,但是带来了误码问题, 所以传输距离一般限制在 100 米以内,硅光技 术可以支持更远的距离,但是成本结构仍然无 法满足大规模、低成本组网的诉求。而以 DAC 和 AEC 为代表的低功耗电互连受原理限制,一 般应用在 5 米以内的范围。CPO 与 LPO 等可插 拔光模块相比,进一步压缩了电互连在 PCB 内 的距离,即大大降低了 SerDes 驱动所需的功耗, 具有功耗低、传输距离远(500 米)、时延小 的优势,在解决了可靠性等问题后,加上 OXC 等光交换技术,集群网络的互连有机会全部切 换为 CPO 解决方案。

3.3 跨域算力网络

跨地域的超级分布式数据中心

算力网络的核心思想是通过新型网络技术将地 理分布的算力中心节点连接起来,动态实时感 知算力资源状态,进而统筹分配和调度计算任 务,传输数据,构成全局范围内感知、分配、 调度算力的网络,在此基础上汇聚和共享算力、 数据、应用资源。算力中心呈现多层次,多管理域的布局。不同 的算力中心间存在巨大的差异性,从资源的角 度看,部署的应用类型、保存的数据集、算力 的体系结构可能不同;从管理的角度看,管理 策略、计费标准、碳排放标准可能不同。因此, 算力网络的建设须面对不同算力中心间的高效 协同,算力、数据、应用可信交易与管理机制 设计,缺乏一体化标准等挑战,最终构建成为 开放的、高资源利用率、高能效的计算基础设施。

融合应用形成数字连续体

人工智能模型规模的不断提升,数据规模的激 增以及科学计算对模拟精度与时效性需求的不 断提升,一方面带来算力需求的激增,另一方 面也在推动应用的变革。未来的分布式应用, 将融合实时与非实时数据处理,模型的训练与 推理、仿真与建模、物联网、信息物理系统等 一起形成了“数字连续体”,解决的单算力中 心无法解决的问题,例如:结合了神经网络与 实时数据的数字气象模型,可以提供高频率、 高分辨率的短临天气预报,为国民生产生活提 供保障;分布式的大模型利用多个算力中心的 资源加速模型的训练过程。新应用程序的出现, 将促进算力中心之间,以及算力中心与边缘计 算的连接;算力中心将不再是独立的系统,而 是形成相互联结的算力网络,多个组织的用户 在多个算力中心共享算力和数据,完成复杂应 用对计算和数据处理的需求。

跨域算力中心协同调度

地理分布的多个算力中心将联结在一起,为新 型分布式融合应用提供支撑。超大模型的训练 可能需要协同多个算力中心的资源完成,复杂 的融合应用可能利用不同算力中心的多种算力 与数据集协同完成。应用的差异性、算力中心 资源的异构性以及不同管理域的管理策略将给 调度系统带来新的挑战。调度系统需要感知应 用所需算力与存储资源,感知应用所需数据的 所在位置以减少数据移动开销,感知应用的通 信模式以减少通信开销;调度系统还需要实时 地感知不同算力中心资源的可用性与异构性, 算力中心间的网络状态;此外,由于不同算力 中心的资源定价、碳排放等标准的差异,调度 系统还需要在性价比与能效比的约束下作出最 优决策。需要调度系统具备全局的资源的发现 能力、感知应用特征、感知算力中心的软硬件 异构性,具备感知局部管理策略的能力,从全 局视角,获得计算效率、数据移动效率与能耗 效率的最优。