MoonshotAI Moonlight 開(kāi)源 MoE 模型
Moonlight 是月之暗面公司推出的开源 MoE(Mixture of Experts)语言模型,使用 Muon 优化器训练,激活参数仅需3B。
该模型在训练效率和性能上表现出色,训练 FLOPS 明显减少,同时支持 64K 上下文处理能力。它适用于多种自然语言处理任务,包括语言理解和生成。
Moonlight 提供两种配置:一种是激活参数为 30 亿,另一种为总参数为 160 亿,训练使用了 5.7 万亿个标记。
Muon 优化器的创新在于利用牛顿 - 舒尔茨迭代法进行矩阵正交化,确保梯度更新在模型参数空间中的均匀性。这种改进为传统的 AdamW 提供了一个有前景的替代方案,提高了训练效率和稳定性。
在技术细节上,Moonlight 对 Muon 优化器进行了两项关键调整。首先,引入了权重衰减技术,以控制大模型和大量标记训练时权重的增长。其次,针对每个参数的更新幅度进行了校准,使其根据权重矩阵的最大维度的平方根进行缩放,从而实现更新的一致性。
評(píng)論
圖片
表情
