DeepSeek开源EPLB：专家并行负载均衡器亮相

摘要： DeepSeek 近日开源了其专家并行负载均衡器 EPLB (Expert Parallelism Load Balancer)，旨在解决大规模模型训练中，尤其是混合专家模型 (MoE) 中，不同专家模型负载不均的问题。EPLB 通过冗余专家策略、分层和全局负载均衡策略，以及优化的专家放置，显著提升 GPU 资源利用率和训练效率，为 AI 开发者提供了一个强大的工具。

北京 – 在人工智能模型日益庞大复杂的今天，如何高效利用计算资源，加速模型训练，成为开发者面临的重要挑战。DeepSeek 近期开源的 EPLB，正是针对这一痛点而生的解决方案。

EPLB (Expert Parallelism Load Balancer) 是一款专家并行负载均衡器，专为解决大规模模型训练中，特别是混合专家模型 (MoE) 中，不同专家模型负载不均的问题而设计。MoE 模型通过将模型分解为多个“专家”，并根据输入数据的不同，动态选择不同的专家进行处理，从而提升模型的容量和性能。然而，由于数据分布和模型结构的差异，不同专家的负载往往差异巨大，导致部分 GPU 过载，而其他 GPU 闲置，造成资源浪费和训练效率低下。

EPLB 的核心技术与功能：

冗余专家策略： EPLB 采用冗余专家策略，复制高负载的专家，并将其合理分配到不同的 GPU 上，从而缓解负载不均衡的问题。这意味着负载较高的专家可以被复制多次，分散到多个 GPU 上，避免单个 GPU 过载。
分层负载均衡 (Hierarchical Load Balancing)： 在节点数可以整除专家组数的情况下，EPLB 采用分层负载均衡策略。首先，将专家组均匀分配到不同的节点，确保每个节点的负载大致相等。然后，在每个节点内，进一步复制专家，并将复制的专家分配到节点内的 GPU 上，确保节点内负载均衡。此外，EPLB 尽量将同一组的专家放置在同一节点内，以减少跨节点通信开销。
全局负载均衡 (Global Load Balancing)： 在节点数不能整除专家组数，或者需要更大规模并行的情况下，EPLB 采用全局负载均衡策略。该策略忽略专家组的限制，将专家全局复制分配到所有可用的 GPU 上。通过动态调整专家的复制数量和放置位置，确保全局负载均衡。
负载估计与动态调整： EPLB 依赖于专家负载的估计值来指导负载均衡策略。负载估计基于历史统计数据（如移动平均值）。根据负载估计值，动态调整专家的复制和分配策略，以适应不同的训练阶段和数据分布。

EPLB 的应用场景：

EPLB 适用于多种大规模分布式训练场景，包括：