Post-training quantization (PTQ) plays a crucial role in the democratization of large language models (LLMs). However, existing low-bit quantization and sparsification techniques are difficult to balance accuracy and efficiency due to the limited hardware support. For example, W4A8 can only achieve the same peak TOPS as W8A8 whereas the GPU-supported sparse data format (2:4 semi-structure sparse) is seldomly adopted due to the loss of accuracy. To bridge this gap, in this paper, we propose the Sparse-Quantized Format (SQ-format), which is a unified data format for quantization and sparsification potentially easily supported by new hardware and existing GPUs. SQ-format makes use of the fact that sparse matrix can be accelerated in high-precision, and low-precision matrix multiplication can also be accelerated accordingly. As such, SQ-format is proposed to achieve Pareto improvement between performance and throughput. This format is particularly suitable for activations with outlier inequality status and makes their static compression possible. We show the state-of-the-art PTQ performance with SQ-format, propose the hardware required to support it, and further offer the design exploration and insights for the next-generation AI accelerators.


翻译:训练后量化(PTQ)在推动大型语言模型(LLM)普及化方面发挥着关键作用。然而,由于硬件支持有限,现有的低位宽量化与稀疏化技术难以在精度和效率之间取得平衡。例如,W4A8配置仅能实现与W8A8相同的峰值TOPS,而GPU支持的稀疏数据格式(2:4半结构化稀疏)因精度损失问题鲜少被采用。为弥合此鸿沟,本文提出稀疏量化格式(SQ-format),这是一种适用于量化和稀疏化的统一数据格式,可被新型硬件及现有GPU便捷支持。SQ-format基于以下原理:稀疏矩阵可在高精度下实现加速,而低精度矩阵乘法亦可相应获得加速。因此,SQ-format旨在实现性能与吞吐量之间的帕累托改进。该格式特别适用于具有离群值非均衡特性的激活张量,并使其静态压缩成为可能。我们展示了SQ-format在PTQ领域达到的前沿性能,提出了支持该格式所需的硬件架构,并进一步为下一代AI加速器提供了设计探索与关键洞见。

0
下载
关闭预览

相关内容

【CVPR2025】基于组合表示移植的图像编辑方法
专知会员服务
8+阅读 · 4月5日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员