开源赛道太挤了!月之暗面开源新版Muon优化器

时间:2025-05-19 关注公众号 来源:网络

在人工智能的浩瀚宇宙中,有一片名为“月之暗面”的神秘领地,这里诞生了一位革新者——Muon,一个开源高效的优化器,它的出现如同夜空中最亮的星,挑战着已知的极限。在一场与DeepSeek的无形较量中,Muon以惊人的计算效率,将训练速度推向了双倍的巅峰,成就了一场技术的月光革命。

故事围绕着Muons的非凡旅程展开,它不仅是代码的结晶,更是智慧与创新的火花。面对3B/16B参数的庞然大物Moonlight模型,Muon犹如一位高明的导师,通过添加权重衰减的秘法与实现一致的RMS更新的策略,平息了大模型训练中的风暴,无需繁琐的超参数调整,便能驾驭这知识的巨轮,驶向更深远的智能海洋。

开源的号角响起,Muon的代码、预训练模型如同宝藏,散落在每一个求知者的路上,其论文成为了探索者手中的灯塔,指引着语言模型训练的新航向。而基于ZeRO-1的分布式实现,是Muon的又一壮举,它在分布式训练的舞台上翩翩起舞,将效率的边界再次拓展。

这是一场智慧与技术的盛宴,Muon以其卓越的性能和开源的精神,邀请每一位梦想家,共同踏入这场未来科技的冒险,探索人工智能未知的深空。

  

月之暗面开源高效优化器muon,同等预算下性能翻倍!

  

月之暗面与DeepSeek再度“撞车”,这次是开源优化器Muon的较量。Muon优化器在计算效率上比AdamW提升了2倍,并已用于训练3B/16B参数的MoE模型Moonlight,刷新了当前的帕累托最优。image.png

  

Muon的改进关键在于:

  添加权重衰减:有效解决大模型训练中权重过大问题。   一致的RMS更新:确保不同形状矩阵更新的一致性,避免性能损失。   

这些改进使得Muon无需调整超参数即可直接用于大规模训练。实验表明,Muon在达到与AdamW相当性能的同时,仅需约52%的训练FLOPs。image.png

  

月之暗面已开源Muon的代码、预训练模型、指令微调以及中间检查点,并发布了相关论文《MUONISSCALABLEFORLLMTRAINING》。

  

image.png

  论文地址:   代码地址:   模型地址:   

Muon的扩展与分布式实现

  

研究人员发现原始Muon在大模型训练中的性能提升有限。通过添加权重衰减和实现一致的RMS更新,解决了这一问题。此外,还提出了一种基于ZeRO-1的分布式Muon实现方案,进一步提升了训练效率。实验结果通过图表详细展示了Muon的优越性能,包括与AdamW的比较以及不同RMS控制方法的对比。image.png图片image.pngimage.png图片image.png图片图片图片图片图片图片图片

  

Muon的开源为大规模语言模型训练提供了新的高效方案,值得关注。

以上就是开源赛道太挤了!月之暗面开源新版Muon优化器的详细内容,更多请关注其它相关文章!

阅读全文
扫码关注“ 多特资源库
更多更全的软件资源下载
文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系我们删除。(本站为非盈利性质网站)
玩家热搜

相关攻略

正在加载中
版权
版权说明

文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系我们删除。(本站为非盈利性质网站)

电话:13918309914

QQ:1967830372

邮箱:rjfawu@163.com

toast