<kbd id="afajh"><form id="afajh"></form></kbd>
<strong id="afajh"><dl id="afajh"></dl></strong>
    <del id="afajh"><form id="afajh"></form></del>
        1. <th id="afajh"><progress id="afajh"></progress></th>
          <b id="afajh"><abbr id="afajh"></abbr></b>
          <th id="afajh"><progress id="afajh"></progress></th>

          MoonshotAI Moonlight 開(kāi)源 MoE 模型

          聯(lián)合創(chuàng)作 · 2025-02-26 21:39

          Moonlight 是月之暗面公司推出的开源 MoE(Mixture of Experts)语言模型,使用 Muon 优化器训练,激活参数仅需3B。

          该模型在训练效率和性能上表现出色,训练 FLOPS 明显减少,同时支持 64K 上下文处理能力。它适用于多种自然语言处理任务,包括语言理解和生成。

          Moonlight 提供两种配置:一种是激活参数为 30 亿,另一种为总参数为 160 亿,训练使用了 5.7 万亿个标记。

          Muon 优化器的创新在于利用牛顿 - 舒尔茨迭代法进行矩阵正交化,确保梯度更新在模型参数空间中的均匀性。这种改进为传统的 AdamW 提供了一个有前景的替代方案,提高了训练效率和稳定性。

          在技术细节上,Moonlight 对 Muon 优化器进行了两项关键调整。首先,引入了权重衰减技术,以控制大模型和大量标记训练时权重的增长。其次,针对每个参数的更新幅度进行了校准,使其根据权重矩阵的最大维度的平方根进行缩放,从而实现更新的一致性。

          瀏覽 14
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          評(píng)論
          圖片
          表情
          推薦
          點(diǎn)贊
          評(píng)論
          收藏
          分享

          手機(jī)掃一掃分享

          分享
          舉報(bào)
          <kbd id="afajh"><form id="afajh"></form></kbd>
          <strong id="afajh"><dl id="afajh"></dl></strong>
            <del id="afajh"><form id="afajh"></form></del>
                1. <th id="afajh"><progress id="afajh"></progress></th>
                  <b id="afajh"><abbr id="afajh"></abbr></b>
                  <th id="afajh"><progress id="afajh"></progress></th>
                  亚洲男人天堂2025 | 肏屄视频免费在线观看 | 欧美成人激情 | 午夜理论片 | 操B在线观看视频 |