一行代码训练成本再降30%,AI大模型混合精度训练再升级|开源(一行的代码)

AIGC动态欢迎阅读

原标题:一行代码训练成本再降30%,AI大模型混合精度

训练再升级|开源

关键字:报告,精度,模型,张量,矩阵

文章来源:量子位

内容字数:0字

内容摘要:

允中 发自 凹非寺量子位 | 公众号 QbitAIFP8通过其独特的数值表示方式,能够在保持一定精度的同时,在大模型训练中提高训练速度、节省内存占用,最终降低训练成本。

AI大模型开发系统Colossal-AI的混合精度训练再度升级,支持主流的BF16(O2) + FP8(O1)的新一代混合精度训练方案。

仅需一行代码,即可对主流LLM模型能够获得平均30%的加速效果,降低相应大模型开发成本,并保证训练收敛性。

无需引入额外的手写CUDA算子,避免了较长的AOT编译时间和复杂的编译环境配置。

开源地址:https://github.com/hpcaitech/ColossalAI

FP8混合精度训练低精度计算一直是GPU硬件发展趋势。

从最早的FP32,到目前通用的FP16/BF16,再到Hopper系列芯片(H100, H200, H800等)支持的FP8,低精度计算速度越来越快,所需的内存也越来越低,非常符合大模型时代对硬件的需求。

目前FP8混合精度训练影响训练结果的最大因素就是scaling方案,常见的方案有两种:

延迟scaling

实时scaling

延迟scaling采用

原文链接:一行代码训练成本再降30%,AI大模型混合精度训练再升级|开源

联系作者

文章来源:量子位

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?