文章目录
一、模型压缩主要常用方法
1)量化
(1)scale和Qint8的计算、对称性和非对称性量化
-
对称性量化
-
非对称量化
-
线性和非线性量化比较
(2)静态量化和动态量化
(3)量化粒度选择和PTQ\QAT分类
①权重weight是固定的,一般采用per-channel
②激活输入时在线变化的,一般采用Per-Tensor量化
③per-group量化往往在大模型中的4bit权重量化中应用
- 量化方法可以分为两大类:
①后训练量化(离线量化):PTQ
②量化感知训练(在线量化):QAT
PTQ量化举例:TensorRT 选用不同calibration做int8量化
(4)模型量化技术为什么会带来加速?
2)稀疏(也叫做模型剪枝技术)
(1) 定义
(2)结构化稀疏和非结构化稀疏
- 额外的需求