EPLB(Expert-Parallel Load Balancer,专家并行负载均衡)是 DeepSeek 提出一种用于优化 LLM 在专家并行架构中训练效率的技术。它通过动态调整 MoE 模型中专家(子网络)的分配,平衡 GPU 之间的工作负载,同时减少跨节点通信开销。在专家并行中,不同专家被分配到不同 GPU 上,但各专家的负载会随任务变化,因此保持 GPU 间负载平衡至关重要。正如 DeepSeek-V3 论文所述,工程师采用冗余专家策略,复制高负载专家,并通过启发式方法将这些专家合理分配到 GPU 上,以确保负载均衡。此外,借助组限制专家路由(Group-Limited Expert Routing),工程师还尽量将同一组的专家放置在同一节点上,减少节点间数据传输。为了便于复现和部署,DeepSeek 在 eplb.py 中开源了 EP 负载平衡算法,该算法根据专家负载估算生成平衡的专家复制和放置方案。