HyperAI超神经

NVIDIA NeMo框架最新研究表明，采用FP8精度训练可显著提升大规模语言模型（LLM）的训练吞吐量，尤其在Hopper和Blackwell架构GPU上表现突出。本文通过实测对比了四种主流FP8缩放策略——延迟缩放、当前缩放、子通道缩放和MXFP8——在NVIDIA H100与DGX B200上的性能表现，涵盖训练效率、数值稳定性、硬件兼容性及模型扩展能力。 FP8通过将数值精度从16或32位降至8位，大幅减少计算量和内存占用，从而实现更快的计算速度和更低的分布式训练通信开销。在大模型场景下，其优势尤为明显：随着模型规模增大，FP8的计算效率优势愈发显著，因为矩阵乘法（GEMM）操作的总量增加，而精度降低带来的性能增益超过缩放管理的额外开销。实验结果显示，在NVIDIA H100上，当前缩放策略对Llama 3 8B模型带来约1.3倍加速，70B模型达1.43倍，最大模型Llama 3.1 405B更实现1.53倍提速。这表明FP8的加速效果随模型规模线性增长，尤其适合超大规模模型训练。在NVIDIA DGX B200上，MXFP8策略展现出更稳定的性能，速度提升在1.28至1.37倍之间。尽管绝对值略低于H100上的当前缩放方案，但MXFP8在不同模型间表现一致，尤其在340B级模型上加速效果更优。这得益于Blackwell架构对块级缩放（如每32个值共享一个缩放因子）的硬件优化，有效平衡了动态范围控制与计算效率。在数值稳定性方面，细粒度的块级缩放（如FP8-blockwise）在训练损失曲线上更接近BF16基线，收敛路径更平稳；而粗粒度的每张量缩放虽有更高原始吞吐，但可能出现波动，影响训练稳定性。此外，GB200 Grace Blackwell超芯片通过将两个B200 GPU与Grace CPU通过NVLink互联，构建统一内存域，实现更高带宽与更低延迟，进一步提升了FP8训练效率，尤其在超大规模模型训练中优势明显。总体而言，FP8训练不仅显著提升速度，还为在现有硬件上训练更大、更复杂的模型提供了现实路径。对于不同场景，应权衡速度与稳定性：小模型可优先考虑当前缩放，大模型推荐MXFP8；而超大规模模型则建议采用GB200等集成架构以最大化性能。NVIDIA NeMo Framework 25.04已提供开箱即用的FP8支持，开发者可直接部署实践。

NVIDIA NeMo 引领 FP8 精度训练新纪元：吞吐量大幅提升

Related Links