Intel Neural Compressor是一个功能强大的开源Python库,专门用于深度学习模型的压缩和优化。它支持主流深度学习框架如TensorFlow、PyTorch和ONNX Runtime,为用户提供了一系列模型压缩技术,包括量化、剪枝、知识蒸馏等。该工具的主要目标是在尽可能保持模型精度的同时,显著提高模型在Intel硬件上的推理性能。
多框架支持: 兼容TensorFlow、PyTorch、ONNX Runtime等主流深度学习框架。
丰富的压缩技术: 提供量化(包括INT8/FP8/INT4/FP4/NF4)、剪枝、知识蒸馏等多种模型压缩方法。
自动化调优: 具有准确度驱动的自动调优策略,帮助用户快速找到最佳的量化模型。
广泛的硬件支持: 针对各种Intel硬件平台进行了优化,包括Xeon处理器、Core Ultra处理器、Gaudi AI加速器等。
易用性: 提供简洁的Python API,使用户只需少量代码修改即可实现模型压缩。
Intel Neural Compressor采用了一种基于准确度的自动调优工作流程: