模型压缩工具包 (MCT)

模型压缩工具包 (MCT) 是一个开源项目，用于在高效、受限的硬件条件下优化神经网络模型。

该项目为研究人员、开发者和工程师提供了在高效硬件上优化和部署最先进神经网络的工具。

具体而言，该项目旨在应用量化技术来压缩神经网络。

MCT 由索尼半导体以色列公司的研究人员和工程师开发。

入门

本节提供安装和快速入门指南。

安装

要安装 MCT 的最新稳定版本，请运行以下命令：

pip install model-compression-toolkit

有关安装每日构建版本或从源代码安装，请参阅安装指南。

快速入门与教程

通过我们的教程探索模型压缩工具包 (MCT)，涵盖了 Keras 和 PyTorch 模型的压缩技术。访问交互式笔记本进行实践学习。例如：

支持的版本

目前，MCT 正在各种 Python、PyTorch 和 TensorFlow 版本上进行测试：

	PyTorch 2.1	PyTorch 2.2	PyTorch 2.3
Python 3.9
Python 3.10
Python 3.11
	TensorFlow 2.12	TensorFlow 2.13	TensorFlow 2.14
-------------	----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------	----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------	----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Python 3.9
Python 3.10
Python 3.11

支持的功能

MCT提供了一系列强大的功能来优化神经网络模型，以实现高效部署。这些支持的功能包括：

数据生成 *

MCT提供了基于模型批量归一化层中存储的统计数据生成合成图像的工具。这些生成的图像对于需要图像数据的各种压缩任务（如量化和剪枝）非常有价值。您可以根据具体需求自定义数据生成配置。前往数据生成页面。

量化

MCT支持不同的量化方法：

训练后量化（PTQ）：Keras API，PyTorch API
基于梯度的训练后量化（GPTQ）：Keras API，PyTorch API
量化感知训练（QAT）*

量化方法	复杂度	计算成本
PTQ	低	低（数分钟量级）
GPTQ（使用梯度微调参数）	中等	中等（2-3小时量级）
QAT	高	高（12-36小时量级）

此外，MCT还支持不同的量化方案来量化权重和激活：

2的幂（硬件友好量化 [1]）
对称
均匀主要特性:
<ins>图优化:</ins> 将模型转换为等效(但更高效)的模型(例如,将批量归一化层折叠到其前面的线性层中)。
<ins>量化参数搜索:</ins> 可以使用不同的方法来最小化阈值搜索期间预期的量化噪声(默认使用均方误差,但也可以使用无裁剪、平均绝对误差等其他指标)。
<ins>高级量化算法:</ins> 为防止性能下降,应用了一些算法,如:
- <ins>负值偏移校正:</ins> 当某些层同时输出正负激活值,但范围不对称时,对称激活量化可能会损害模型性能。详情请参阅[1]。
- <ins>异常值过滤:</ins> 计算激活统计的Z分数来检测和移除异常值。
<ins>聚类:</ins> 使用非均匀量化网格来量化权重和激活,以匹配它们的分布。[*]
<ins>混合精度搜索:</ins> 根据层对不同位宽的敏感度,为每层(权重/激活)分配量化位宽。
<ins>可视化:</ins> 您可以使用TensorBoard观察有用信息,以排查量化模型的性能问题(例如,量化不同阶段的模型、收集的统计数据、浮点和量化模型层之间的相似性,以及混合精度量化的位宽配置)。详情请阅读可视化文档。
<ins>目标平台能力:</ins> 目标平台能力(TPC)描述了目标平台(具有专用硬件的边缘设备)。详情请阅读TPC README。

增强后训练量化(EPTQ)

作为GPTQ的一部分,我们提供了一种名为EPTQ的高级优化算法。

算法规格详见论文:"EPTQ: 基于无标签Hessian的增强后训练量化" [4]。

有关如何通过MCT使用EPTQ的更多详细信息,请参阅EPTQ指南。

结构化剪枝 [*]

MCT引入了结构化和硬件感知的模型剪枝。这种剪枝技术旨在为特定硬件架构压缩模型, 考虑了目标平台的单指令多数据(SIMD)能力。通过剪枝通道组(SIMD组),我们的方法不仅减小了模型大小和复杂度,还确保了更好地利用通道,符合SIMD架构以达到目标权重内存占用率。 Keras API Pytorch API