在此背景下,仅仅依靠IB(InfiniBand)或RoCE(RDMA over Converged Ethernet)等传统网络技术来满足模型性能指标已十分困难,需构建 具备高带宽、低延迟特征的GPU卡间互连技术体系,以扩大节点规模, 大幅降低通信时间占比,最终实现集群算效的显著提升。 一场根本性变革,从传统单机八卡向超节点演变。超节点并非简单的 硬件堆叠,是一种通过极致性能的高速互连技术,将数十乃至上千颗 GPU芯片集成于单个或多个机柜的集群系统,突破传统设备算力瓶颈, 显著降低多芯片并行计算的通信损耗,实现大模型训练与推理效率的 1.2.大规模智算集群呼唤“光进电退”技术 目前,超节点智算集群展现出三大技术特性,一是互连性能高, GPU之间具有超低时延超高带宽(百纳秒级,TB/s级)且无收敛的互连 能力;二是算力密度高,由单个或多个机柜构成,包含32个以上甚至 到千卡的GPU数量,不断逼近电互连物理部署极限;三是能效PUE高, 超节点单机柜功率可达40kW以上,采用液冷为主、风冷为辅的散热方 案,配合柜级集中电源供电,在提供更高供电效率的同时大幅降低数 据中心PUE。