Back to Headlines

NVIDIA NeMo 引领 FP8 精度训练新纪元:吞吐量大幅提升

4 天前

NVIDIA NeMo框架最新研究表明,采用FP8精度训练可显著提升大规模语言模型(LLM)的训练吞吐量,尤其在Hopper和Blackwell架构GPU上表现突出。本文通过实测对比了四种主流FP8缩放策略——延迟缩放、当前缩放、子通道缩放和MXFP8——在NVIDIA H100与DGX B200上的性能表现,涵盖训练效率、数值稳定性、硬件兼容性及模型扩展能力。 FP8通过将数值精度从16或32位降至8位,大幅减少计算量和内存占用,从而实现更快的计算速度和更低的分布式训练通信开销。在大模型场景下,其优势尤为明显:随着模型规模增大,FP8的计算效率优势愈发显著,因为矩阵乘法(GEMM)操作的总量增加,而精度降低带来的性能增益超过缩放管理的额外开销。 实验结果显示,在NVIDIA H100上,当前缩放策略对Llama 3 8B模型带来约1.3倍加速,70B模型达1.43倍,最大模型Llama 3.1 405B更实现1.53倍提速。这表明FP8的加速效果随模型规模线性增长,尤其适合超大规模模型训练。 在NVIDIA DGX B200上,MXFP8策略展现出更稳定的性能,速度提升在1.28至1.37倍之间。尽管绝对值略低于H100上的当前缩放方案,但MXFP8在不同模型间表现一致,尤其在340B级模型上加速效果更优。这得益于Blackwell架构对块级缩放(如每32个值共享一个缩放因子)的硬件优化,有效平衡了动态范围控制与计算效率。 在数值稳定性方面,细粒度的块级缩放(如FP8-blockwise)在训练损失曲线上更接近BF16基线,收敛路径更平稳;而粗粒度的每张量缩放虽有更高原始吞吐,但可能出现波动,影响训练稳定性。 此外,GB200 Grace Blackwell超芯片通过将两个B200 GPU与Grace CPU通过NVLink互联,构建统一内存域,实现更高带宽与更低延迟,进一步提升了FP8训练效率,尤其在超大规模模型训练中优势明显。 总体而言,FP8训练不仅显著提升速度,还为在现有硬件上训练更大、更复杂的模型提供了现实路径。对于不同场景,应权衡速度与稳定性:小模型可优先考虑当前缩放,大模型推荐MXFP8;而超大规模模型则建议采用GB200等集成架构以最大化性能。NVIDIA NeMo Framework 25.04已提供开箱即用的FP8支持,开发者可直接部署实践。

Related Links