ModelScan横幅

ModelScan：防御模型序列化攻击的工具

机器学习（ML）模型在互联网上公开共享，在团队内部和团队之间传播。基础模型的兴起导致公共ML模型越来越多地被用于进一步训练/微调。ML模型越来越多地被用于做出关键决策和支持关键任务应用。

尽管如此，模型还没有像扫描收件箱中的PDF文件那样严格地被扫描。

这种情况需要改变，而适当的工具是第一步。

ModelScan预览

ModelScan是Protect AI的一个开源项目，用于扫描模型以确定它们是否包含不安全的代码。它是第一个支持多种模型格式的模型扫描工具。ModelScan目前支持：H5、Pickle和SavedModel格式。这可以在使用PyTorch、TensorFlow、Keras、Sklearn、XGBoost等框架时保护您，未来还会支持更多。

简介

如果您准备开始扫描您的模型，很简单：

pip install modelscan

安装完成后，扫描一个模型：

modelscan -p /path/to/model_file.pkl

为什么要扫描模型

模型通常由自动化流程创建，有些可能来自数据科学家的笔记本电脑。无论哪种情况，模型都需要在使用前从一台机器转移到另一台机器。将模型保存到磁盘的过程称为序列化。

模型序列化攻击是指在序列化（保存）过程中向模型内容添加恶意代码，然后再分发 —— 这是特洛伊木马的现代版本。

攻击通过利用模型的保存和加载过程来实现。当您使用model = torch.load(PATH)加载模型时，PyTorch会打开文件内容并开始运行其中的代码。一旦加载模型，漏洞就已经执行了。

模型序列化攻击可以用于执行：

凭证盗窃（用于在您的环境中向其他系统写入和读取数据的云凭证）
数据盗窃（发送给模型的请求）
数据污染（模型执行任务后发送的数据）
模型污染（改变模型本身的结果）

这些攻击非常容易执行，您可以在我们的📓notebooks文件夹中查看工作示例。

入门

ModelScan如何工作

如果使用机器学习框架加载模型会自动执行攻击，那么ModelScan如何在不加载恶意代码的情况下检查内容呢？

很简单，它像读取字符串一样一次读取文件内容的一个字节，寻找不安全的代码签名。这使得它非常快速，在大多数情况下只需几秒钟就能扫描完模型（取决于计算机处理磁盘上总文件大小的时间）。它也很安全。

ModelScan将不安全代码分为以下级别：

严重
高
中
低

ModelScan流程图

如果检测到问题，请立即联系模型作者以确定原因。

在某些情况下，代码可能嵌入到模型中以便数据科学家更容易重现，但这会使您面临攻击风险。请自行判断是否适合您的工作负载。

支持哪些模型和框架？

这将不断扩展，所以请关注我们的发布说明中的变化。

目前，ModelScan支持任何Pickle衍生格式和许多其他格式：

ML库	API	序列化格式	modelscan支持
Pytorch	torch.save()和torch.load()	Pickle	是
Tensorflow	tf.saved_model.save()	Protocol Buffer	是
Keras	keras.models.save(save_format= 'h5')	HD5 (分层数据格式)	是
	keras.models.save(save_format= 'keras')	Keras V3 (分层数据格式)	是
经典ML库 (Sklearn, XGBoost等)	pickle.dump(), dill.dump(), joblib.dump(), cloudpickle.dump()	Pickle, Cloudpickle, Dill, Joblib	是

安装

ModelScan作为Python包安装在您的系统上（支持Python 3.9到3.12）。如上所示，您可以在终端中运行以下命令来安装它：

pip install modelscan

要将其包含在项目的依赖项中，使其对所有人可用，请将其添加到您的requirements.txt或pyproject.toml文件中，如下所示：

modelscan = ">=0.1.1"

对于Tensorflow或HD5格式的模型扫描器，需要安装额外的依赖：

pip install 'modelscan[ tensorflow, h5py ]'

通过CLI使用ModelScan

ModelScan通过CLI支持以下参数：

用法	参数	说明
`modelscan -h`	-h 或 --help	查看使用帮助
`modelscan -v`	-v 或 --version	查看版本信息
`modelscan -p /path/to/model_file`	-p 或 --path	扫描本地存储的模型
`modelscan -p /path/to/model_file --settings-file ./modelscan-settings.toml`	--settings-file	使用自定义配置扫描本地存储的模型
`modelscan create-settings-file`	-l 或 --location	创建可配置的设置文件
`modelscan -r`	-r 或 --reporting-format	输出格式。选项包括console、json或custom（在设置文件中定义）。默认为console
`modelscan -r reporting-format -o file-name`	-o 或 --output-file	输出报告的可选文件名
`modelscan --show-skipped`	--show-skipped	打印扫描过程中被跳过的文件列表