• 功能特点

  IT之家 2 月 24 日音讯,月之暗面 Kimi 昨日发布了“Muon 可扩展用于 LLM 练习”的新技能陈述,并宣告推出“Moonlight”:一个在 Muon 上练习的 30 亿 / 160 亿参数混合专家模型(MoE)。运用了 5.7 万亿个 token,在更低的浮点运算次数(FLOPs)下完成了更好的功能,然后提升了帕累托功率鸿沟。

  月之暗面称,团队发现 Muon 优化器可通过增加权重衰减、细心调整每个参数的更新起伏等技能进行扩展,并具有如下亮点:

  这些技能使得 Muon 可以在大规模练习中开箱即用,无需进行超参数调优。扩展规律试验标明,与核算最优练习的 AdamW 比较,Muon 完成了约 2 倍的核算功率。

  咱们的模型不只打破了当时的 Pareto 前沿,还在练习所需的 FLOP 数大起伏削减的情况下,达到了比以往模型更优的功能。 咱们开源了一个分布式版别的 Muon 完成,它在内存运用和通讯功率上都进行了优化。一起,咱们也发布了预练习模型、通过指令调优的模型以及中心练习检查点,旨在为未来的研讨供给支撑。

相关产品