FP8 低精度训练:Transformer Engine 简析(f精度多少)

AIGC动态欢迎阅读

原标题:FP8 低精度

训练:Transformer Engine 简析

关键字:精度,模型,数据,数值,框架

文章来源:智猩猩AGI

内容字数:0字

内容摘要:

大模型时代最火AI芯片峰会来啦!!9月6-7日,由智猩猩联合主办的2024全球AI芯片峰会将在北京举行。峰会设有数据中心AI芯片、智算集群技术论坛等7大板块。目前,清华大学教授、集成电路学院副院长尹首一 ,AMD人工智能事业部高级总监王宏强,高通AI产品技术中国区负责人万卫星,摩尔线程高级产品总监付海良波等30+位嘉宾已确认参会。扫码报名~原文:https://zhuanlan.zhihu.com/p/700874387

01背景介绍业界广泛采用 FP16、BF16 混合精度(AMP)进行模型训练。AMP 能在下游任务不掉点的前提下提升训练效率、减少显存等资源占用,如今也常用于大模型预训练、微调等任务。

Pytorch 1.6 版本后原生支持 FP16、BF16 精度的 AMP 训练(torch.amp),过往 AMP 功能由 NVIDIA APEX 库实现。

NVIDIA GPU 自 Hopper 架构起支持 FP8 精度的 Tensor Core 计算,相比于 FP16/BF16 精度,FP8 具有如下优势:

更强的计算性能

对比 A100 BF16 精度训练,H100 FP8 训

原文链接:FP8 低精度训练:Transformer Engine 简析

联系作者

文章来源:智猩猩AGI

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?