支持原生FP8和PyTorch 2.5.0,摩尔线程发布Torch-MUSA v2.0.0

时间:2025-05-19 关注公众号 来源:网络

在人工智能的最前沿,一场技术风暴正悄然掀起。摩尔线程,这个承载着国产GPU梦想的名字,发布了震撼业界的Torch-MUSA V2.0.0,如同一把钥匙,解锁了深度学习新纪元。在虚构的科技都会“智慧峰”,科学家们利用这款革命性的软件,首次让国产GPU拥有了FP8数据类型的翅膀,飞翔在高精度与高速度的交汇点。

故事围绕着年轻的算法工程师李晨曦,她与团队在探索大语言模型的极限时,发现了Torch-MUSA V2.0.0的秘密武器——虚拟内存管理和MUSAGraph。这些技术不仅是代码上的革新,更是通往未来智能社会的桥梁。在紧张的国际AI竞赛中,他们利用FP8的计算魔力,训练出拥有自我学习能力的超级AI“灵犀”。

随着每一次计算的优化,李晨曦仿佛在与时间赛跑,她的每一步突破都震动着智慧峰的每一个角落。《智域破晓》不仅是一场技术的盛宴,更是关于梦想、创新与挑战极限的叙事诗。在这个故事里,我们见证的不仅仅是技术的胜利,更是人类智慧与勇气的闪耀。在FP8的光芒下,一个新的AI时代,正被勇敢的心所开启。

  

支持原生fp8和pytorch 2.5.0,摩尔线程发布torch-musa v2.0.0

  

摩尔线程近期推出了Torch-MUSAv2.0.0版本,这是其针对PyTorch深度学习框架的MUSA扩展库的一次重大升级。新版本基于MUSAComputeCapability3.1计算架构,支持原生FP8数据类型,并兼容PyTorch2.5.0版本。通过多项针对MUSA计算平台的性能优化,Torch-MUSAv2.0.0进一步增强了对AI模型和大规模数据处理的支持能力。

  

FP8原生支持,国产GPU的技术突破

  

Torch-MUSAv2.0.0版本的核心亮点是首次在国产GPU上实现了对FP8数据类型的全面支持。FP8作为AI计算的一种先进低精度格式,在支持FP8的GPU上进行大语言模型(LLM)训练时,采用FP8混合精度可以显著提升GPU的计算能力,并大幅减少显存使用。摩尔线程基于新一代MUSAComputeCapability3.1计算架构的全功能GPU原生支持FP8计算,这为Torch-MUSAv2.0.0实现FP8矩阵乘法和分布式通信优化奠定了坚实基础。凭借这一底层架构优势,Torch-MUSAv2.0.0能够充分发挥FP8的计算效能,显著提升大语言模型训练和推理的效率。

  

三大关键优化,提升AI计算效率

  

Torch-MUSAv2.0.0通过在MUSA计算平台上引入多项创新功能,进一步提升了深度学习任务的执行效率:

  

▼新增虚拟内存管理支持:

  

MUSA虚拟内存管理技术有效缓解了GPU内存碎片化问题,降低了模型训练过程中的峰值内存占用,适用于FSDP、Deepspeed和Megatron-LM等主流大模型训练框架。

  

▼新增MUSAGraph支持:

  

MUSAGraph技术将多个MUSA内核整合到一个图中,通过单次cpu调度大幅减少启动开销,提升计算效率,同时与CUDAGraph接口高效兼容。

  

▼torch.compile增加Triton后端支持:

  

为torch.compile提供了Triton-MUSA后端支持,开发者可以直接使用PyTorch原生接口,获得更高效的性能表现。

  

支持PyTorch2.5.0,生态兼容性更强

  

Torch-MUSAv2.0.0在完全支持PyTorch2.2.0的基础上,增加了对PyTorch2.5.0的支持,使开发者能够在基于MUSAComputeCapability3.1计算架构的全功能GPU上,无缝运行新版本的PyTorch,享受更高效的AI计算体验。

  

Torch-MUSA已经完全开源,开发者可以通过访问GitHub获取源代码。摩尔线程鼓励开发者积极参与该项目的开发与改进,通过提交问题报告(issue)或代码修改申请(pullrequest)等方式,共同推动Torch-MUSA以及MUSA软件生态的持续进步与创新。

  

▼Torch-MUSA开源地址:

  

  

▼功能特性:

  

在Torch-MUSA中,用户只需指定torch.device("musa"),即可轻松将现有的PyTorch模型迁移到MUSA架构的GPU上运行,无需大幅修改代码。Torch-MUSA完全兼容PyTorch的自动微分和动态图机制,支持多种常用的神经网络模块及优化算法,并加速了关键深度学习算子的计算。此外,Torch-MUSA还支持多种PyTorch特性,包括DDP、JIT、FSDP、Profiler、Extension等。

  

▼版本迭代:

  

MUSAGraph技术将多个MUSA内核整合到一个图中,通过单次CPU调度大幅减少启动开销,提升计算效率,同时与CUDAGraph接口高效兼容。

  

v1.1.0:初次发布,支持PyTorch2.0,提供基础张量操作和常见神经网络层的MUSA加速。

  

v1.2.0:进一步扩展算子支持,支持了完整功能的Profiler、MUSAExtension,并增加了Torch-MUSA专有特性如compare_tool、musa_converter,帮助用户更快的定位模型精度问题。

  

v1.3.0:支持PyTorch2.2.0,性能进一步提升,支持FSDP,支持更复杂的模型和更大规模的数据处理。

  

v2.0.0:在MUSAComputeCapability3.1计算架构上,原生支持FP8数据类型,支持PyTorch2.5.0,新增MUSA虚拟内存管理技术优化大模型训练内存效率,通过集成Triton-MUSA后端显著提升torch.compile编译效率,支持MUSAGraph技术。

  

▼未来计划:

  

Torch-MUSA将继续跟进PyTorch的版本更新,计划支持更高版本的PyTorch。摩尔线程期待与广大开发者和研究人员共同完善Torch-MUSA的功能,持续优化性能,为基于MUSA架构的国产全功能GPU构建更强大的深度学习生态。

以上就是支持原生FP8和PyTorch2.5.0,摩尔线程发布Torch-MUSAv2.0.0的详细内容,更多请关注其它相关文章!

阅读全文
扫码关注“ 多特资源库
更多更全的软件资源下载
文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系我们删除。(本站为非盈利性质网站)
玩家热搜

相关攻略

正在加载中
版权
版权说明

文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系我们删除。(本站为非盈利性质网站)

电话:13918309914

QQ:1967830372

邮箱:rjfawu@163.com

toast