EPLB 專家并行負(fù)載均衡器
EPLB (Expert Parallelism Load Balancer) 是适用于 V3/R1 的专家并行负载均衡器,解决 MoE 模型在分布式训练和推理中的负载不均衡问题。
在 MoE 架构中,不同的输入会激活不同的专家,可能导致某些专家过载,进一步造成不同 GPU 的利用率不平衡。
EPLB 采用“redundant experts”(冗余专家)策略:
识别高负载专家→复制多个副本分配到不同 GPU→在推理时动态分配输入到负载较轻的专家副本。
并带有两种普通的策略:
- 分层负载平衡,专家并行较小的预填充阶段使用
- 全局负载平衡,在专家并行规模较大的解码阶段采用
評論
圖片
表情
