ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

7,232 0 1200

模型量化是模型压缩与加速中的一项关键技术，其将模型权重与激活值量化至低 bit，以允许模型占用更少的内存开销并加快推理速度。对于具有海量参数的大语言模型而言，模型量化显得更加重要。例如，GPT-3 模型的 175B 参数当使用 FP16 格式加载时，需消耗 350GB 的内存，需要至少 5 张 80GB 的 A100 GPU。

但若是可以将 GPT-3 模型的权重压缩至 3bit，则可以实现单张 A100-80GB 完成所有模型权重的加载。

现有的大语言模型后训练量化算法依赖于手工制定量化参数，优于缺乏相应的优化过程，导致面对低 bit 量化时，现有的方法都表现出显著的性能下降。尽管量化感知训练在确定最佳量化配置方面是有效的，但它需要引入大量额外的训练开销和训练数据。尤其是大语言模型本身的计算量进一步阻碍了量化感知训练在大预言模型量化上的应用。

这引出一个问题：我们能否在保持后训练量化的时间和数据效率的同时，达到量化感知训练的性能？

为了解决大语言模型后训练量化中的量化参数优化问题，来自上海人工智能实验室、香港大学、香港中文大学的研究者们提出了《OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models》。该算法同时支持大语言模型中的权重与激活值的量化，且覆盖多种量化 bit 位设置。

ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP

arXiv 论文地址：https://arxiv.org/abs/2308.13137

OpenReview 论文地址：https://openreview.net/forum?id=8Wuvhh0LYW

代码地址：https://github.com/OpenGVLab/OmniQuant

框架方法

如上图所示，OmniQuant 是一种针对大语言模型（LLM）的可微分量化技术，同时支持仅权重量化和权重激活值同时量化。并且，其在实现高性能量化模型的同时，保持了后训练量化的训练时间高效性和数据高效性。例如，OmniQuant 可在单卡 A100-40GB 上，在 1-16 小时内完成对 LLaMA-7B ~ LLaMA70B 模型量化参数的更新。

为了达到这个目标，OmniQuant 采用了一个 Block-wise 量化误差最小化框架。同时，OmniQuant 设计了两种新颖的策略来增加可学习的量化参数，包括可学习的权重裁剪（Learnable Weight Clipping，LWC），以减轻量化权重的难度，以及一个可学习的等价转换（Learnable Equivalent Transformation, LET），进一步将量化的挑战从激活值转移到权重。

此外，OmniQuant 引入的所有可学习参数在量化完成后可以被融合消除，量化模型可以基于现有工具完成在多平台的部署，包括 GPU、Android、IOS 等等。

Block-wise 量化误差最小化

OmniQuant 提出了一个新的优化流程，该流程采用 Block-wise 量化误差最小化，并且以可微分的方式优化额外的量化参数。其中，优化目标公式化如下：

其中 F 代表 LLM 中一个变换器块的映射函数，W 和 X 分别是全精度权重和激活， ICLR 2024 Spotlight | 大语言模型权重、激活的全方位低bit可微量化，已集成进商用APP 和分别代表权重和激活量化器，和分别是可学习的权重裁剪（LWC）和可学习的等价转换（LET）中的量化参数。OmniQuant 安装 Block-wise 量化按顺序量化一个 Transformer Block 中的参数，然后再移动到下一个。

可学习的权重裁剪 (LWC)

等价转换在模型权重和激活值之间进行量级迁移。OmniQuant 采用的可学习等价转换使得在参数优化过程中会使得模型权重的分布随着训练不断地发生改变。此前直接学习权重裁剪阈值的方法 [1,2] 只适用于权重分布不发生剧烈改变的情况，否则会难以收敛。基于此问题，与以往方法直接学习权重裁剪阈值不同，LWC 通过以下方式优化裁剪强度：