LLM 攻击

这是"对齐语言模型的通用和可迁移对抗攻击"的官方代码库，作者为Andy Zou、Zifan Wang、Nicholas Carlini、Milad Nasr、J. Zico Kolter和Matt Fredrikson。

更新

(2024-08-01) 我们发布了nanogcg，这是GCG算法的快速且易用的实现。nanogcg可以通过pip安装，代码可在此处获取。
(2023-08-16) 我们添加了一个notebook demo.ipynb（或在Colab上查看），其中包含了用于破解LLaMA-2以生成有害内容的GCG最小实现。

安装

我们需要最新版本的FastChat fschat==0.2.23，请确保安装此版本。可以在此代码库的根目录下运行以下命令来安装llm-attacks包：

pip install -e .

模型

请先按照说明下载Vicuna-7B或/和LLaMA-2-7B-Chat（我们使用HuggingFace转换的权重，可在这里找到）。我们的脚本默认假设模型存储在名为/DIR的根目录中。要修改模型和分词器的路径，请在experiments/configs/individual_xxx.py（用于单个实验）和experiments/configs/transfer_xxx.py（用于多行为或迁移实验）中添加以下行。示例如下：

    config.model_paths = [
        "/DIR/vicuna/vicuna-7b-v1.3",
        ... # 更多模型
    ]
    config.tokenizer_paths = [
        "/DIR/vicuna/vicuna-7b-v1.3",
        ... # 更多分词器
    ]

演示

我们包含了一个notebook demo.ipynb，提供了使用GCG攻击LLaMA-2的示例。你也可以在Colab上查看此notebook。这个notebook使用了GCG的最小实现，因此应仅用于熟悉攻击算法。要运行更多行为的实验，请查看实验部分。为了在演示中监控损失，我们使用livelossplot，所以应先通过pip安装此库。

pip install livelossplot

实验

experiments文件夹包含了在AdvBench上复现GCG实验的代码。

要运行具有有害行为和有害字符串的单个实验（即1个行为，1个模型或1个字符串，1个模型），请在experiments内运行以下代码（将vicuna改为llama2，将behaviors改为strings可切换到不同的实验设置）：

cd launch_scripts
bash run_gcg_individual.sh vicuna behaviors

要进行多行为实验（即25个行为，1个模型），请在experiments内运行以下代码：

cd launch_scripts
bash run_gcg_multiple.sh vicuna # 或 llama2

要进行迁移实验（即25个行为，2个模型），请在experiments内运行以下代码：

cd launch_scripts
bash run_gcg_transfer.sh vicuna 2 # 或 vicuna_guanaco 4

要进行评估实验，请按照experiments/parse_results.ipynb中的说明操作。

请注意，我们实验中的所有超参数都由ml_collections包在此处理。你可以直接在定义它们的地方更改这些超参数，例如experiments/configs/individual_xxx.py。然而，传递不同超参数的推荐方法是在启动脚本中进行。查看我们在experiments/launch_scripts中的启动脚本以获取示例。有关ml_collections的更多信息，请参阅他们的代码库。

可复现性

关于硬件的说明：我们运行的所有实验都使用一个或多个NVIDIA A100 GPU，每个芯片有80G内存。

我们包含了一些人们在复现我们的结果时告诉我们的例子。它们可能还包括解决你情况下类似问题的解决方法。

目前，代码库仅支持使用基于LLaMA或Pythia的模型进行训练。使用其他模型（具有不同的分词器）运行脚本可能会导致静默错误。作为提示，从修改这个函数开始，其中为模型定义了不同的切片。

引用

如果你在研究中发现这个工作有用，请考虑引用：

@misc{zou2023universal,
      title={Universal and Transferable Adversarial Attacks on Aligned Language Models}, 
      author={Andy Zou and Zifan Wang and J. Zico Kolter and Matt Fredrikson},
      year={2023},
      eprint={2307.15043},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}