6 个月前

卷积神经网络

Jianfei Chen Yu Gai Zhewei Yao Michael W. Mahoney Joseph E. Gonzalez

摘要

全量化训练（Fully Quantized Training, FQT）通过将神经网络模型的激活值、权重和梯度均进行低比特量化，利用低比特硬件加速深度神经网络的训练，是一种极具前景的技术路径。然而，FQT面临的一个主要挑战是缺乏系统的理论理解，尤其是关于梯度量化对收敛性影响的机制尚不明确。本文通过构建一个统计分析框架，系统地研究FQT算法的性质。我们将FQT中的量化梯度视为其高精度对应项的随机估计器，这一过程即所谓的量化感知训练（Quantization-Aware Training, QAT）。我们证明了FQT梯度是QAT梯度的无偏估计，并进一步分析了梯度量化对估计方差的影响。基于上述理论发现，我们设计了两种新型梯度量化器，实验表明其方差显著低于现有的逐张量（per-tensor）量化方法。在ImageNet数据集上训练ResNet-50模型时，我们提出的5比特块Householder量化器仅带来0.5%的验证精度损失，性能与现有的INT8基准相当，展现出优异的量化效率与模型精度平衡能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

Jianfei Chen Yu Gai Zhewei Yao Michael W. Mahoney Joseph E. Gonzalez

摘要

全量化训练（Fully Quantized Training, FQT）通过将神经网络模型的激活值、权重和梯度均进行低比特量化，利用低比特硬件加速深度神经网络的训练，是一种极具前景的技术路径。然而，FQT面临的一个主要挑战是缺乏系统的理论理解，尤其是关于梯度量化对收敛性影响的机制尚不明确。本文通过构建一个统计分析框架，系统地研究FQT算法的性质。我们将FQT中的量化梯度视为其高精度对应项的随机估计器，这一过程即所谓的量化感知训练（Quantization-Aware Training, QAT）。我们证明了FQT梯度是QAT梯度的无偏估计，并进一步分析了梯度量化对估计方差的影响。基于上述理论发现，我们设计了两种新型梯度量化器，实验表明其方差显著低于现有的逐张量（per-tensor）量化方法。在ImageNet数据集上训练ResNet-50模型时，我们提出的5比特块Householder量化器仅带来0.5%的验证精度损失，性能与现有的INT8基准相当，展现出优异的量化效率与模型精度平衡能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供