DS DAY4开源的DualPipe让正向和逆向的计算和通信在时间轴上交错重叠,在第一个批次的正向计算还在往后传时,另一个批次的逆向计算已经在前传,避免顺序执行导致的空闲。此外,DualPipie并且尽可能让计算与通信同时发生,即某张GPU做完某个批次的计算之后,可以立即发起通信并处理其他计算任务——DualPipe帮助大幅减少GPU气泡损耗,将设备等待时间从常规的35%降到<5%。针对MoE架构,DS进一步提出EPLB来避免单卡过载。MoE架构下,不同专家可能负载不均,导致GPU出现通信量不均衡的问题。EPLB(ExpertParallelism Load Balancer)通过复制“热门”专家并将副本分配到其他空闲GPU上,从而避免单卡过载。