Code Llama简介

Code Llama是一系列基于Llama 2的大型代码语言模型，在开放模型中提供最先进的性能，具备填充能力、支持大型输入上下文，以及编程任务的零样本指令跟随能力。我们提供多种版本以覆盖广泛的应用：基础模型（Code Llama）、Python专门化模型（Code Llama - Python）和指令跟随模型（Code Llama - Instruct），每种都有7B、13B和34B参数版本。所有模型都在16k个token的序列上进行训练，并在长达100k个token的输入上表现出改进。7B和13B的Code Llama和Code Llama - Instruct变体支持基于周围内容的填充。Code Llama是通过对Llama 2进行微调，并增加代码采样比例开发而成的。与Llama 2一样，我们对模型的微调版本应用了大量安全缓解措施。有关模型训练、架构和参数、评估、负责任的AI和安全性的详细信息，请参阅我们的研究论文。Llama材料（包括Code Llama）的代码生成功能产生的输出可能受第三方许可的约束，包括但不限于开源许可。

我们正在释放大型语言模型的力量，最新版本的Code Llama现在可供个人、创作者、研究人员和各种规模的企业使用，以便他们能够负责任地进行实验、创新和扩展他们的想法。此版本包括预训练和微调的Llama语言模型的权重和启动代码，参数范围从7B到34B。

这个仓库旨在提供一个最小示例，用于加载Code Llama模型并运行推理。

下载

要下载模型权重和分词器，请访问Meta网站并接受我们的许可协议。

一旦您的请求获得批准，您将通过电子邮件收到一个签名URL。然后运行download.sh脚本，在提示时输入提供的URL以开始下载。确保您复制的是URL文本本身，不要使用右键单击URL时的"复制链接地址"选项。如果复制的URL文本以https://download.llamameta.net开头，则说明您复制正确。如果复制的URL文本以https://l.facebook.com开头，则说明您复制错误。

前提条件：确保您已安装wget和md5sum。然后运行脚本：bash download.sh。

请记住，链接在24小时后或达到一定下载次数后会过期。如果您开始看到诸如403: Forbidden之类的错误，您可以随时重新请求链接。

模型大小

模型	大小
7B	~12.55GB
13B	24GB
34B	63GB
70B	131GB

设置

在一个安装了PyTorch / CUDA的conda环境中，克隆仓库并在顶级目录中运行：

pip install -e .

推理

不同的模型需要不同的模型并行（MP）值：

模型	MP
7B	1
13B	2
34B	4
70B	8

除了70B的python和instruct版本外，所有模型都支持最多100,000个token的序列长度，但我们根据max_seq_len和max_batch_size值预先分配缓存。因此，请根据您的硬件和用例设置这些值。

预训练代码模型

Code Llama和Code Llama - Python模型未经过微调以遵循指令。应该以期望的答案是提示的自然延续的方式来提示它们。

请参阅example_completion.py以获取一些示例。为了说明，请查看下面的命令，该命令使用CodeLlama-7b模型运行（nproc_per_node需要设置为MP值）：

torchrun --nproc_per_node 1 example_completion.py \
    --ckpt_dir CodeLlama-7b/ \
    --tokenizer_path CodeLlama-7b/tokenizer.model \
    --max_seq_len 128 --max_batch_size 4

预训练的代码模型包括：Code Llama模型CodeLlama-7b、CodeLlama-13b、CodeLlama-34b、CodeLlama-70b以及Code Llama - Python模型CodeLlama-7b-Python、CodeLlama-13b-Python、CodeLlama-34b-Python、CodeLlama-70b-Python。

代码填充

Code Llama和Code Llama - Instruct 7B和13B模型能够根据周围的上下文填充代码。

请参阅example_infilling.py获取一些示例。可以使用以下命令运行CodeLlama-7b模型进行填充（需要将nproc_per_node设置为MP值）：

torchrun --nproc_per_node 1 example_infilling.py \
    --ckpt_dir CodeLlama-7b/ \
    --tokenizer_path CodeLlama-7b/tokenizer.model \
    --max_seq_len 192 --max_batch_size 4

预训练的填充模型包括：Code Llama模型CodeLlama-7b和CodeLlama-13b以及Code Llama - Instruct模型CodeLlama-7b-Instruct、CodeLlama-13b-Instruct。

微调的指令模型

Code Llama - Instruct模型经过微调以遵循指令。为了获得7B、13B和34B变体的预期功能和性能，需要遵循chat_completion()中定义的特定格式，包括INST和<<SYS>>标签、BOS和EOS标记以及中间的空格和换行符（我们建议对输入调用strip()以避免双重空格）。CodeLlama-70b-Instruct需要一个单独的基于回合的提示格式，定义在dialog_prompt_tokens()中。你可以直接使用chat_completion()来生成所有指令模型的答案；它会自动执行所需的格式化。

你还可以部署额外的分类器来过滤掉被认为不安全的输入和输出。请参阅llama-recipes仓库中的示例，了解如何在推理代码的输入和输出中添加安全检查器。

使用CodeLlama-7b-Instruct的示例：

torchrun --nproc_per_node 1 example_instructions.py \
    --ckpt_dir CodeLlama-7b-Instruct/ \
    --tokenizer_path CodeLlama-7b-Instruct/tokenizer.model \
    --max_seq_len 512 --max_batch_size 4

微调的指令遵循模型包括：Code Llama - Instruct模型CodeLlama-7b-Instruct、CodeLlama-13b-Instruct、CodeLlama-34b-Instruct、CodeLlama-70b-Instruct。

Code Llama是一项新技术，使用时可能存在潜在风险。迄今为止进行的测试尚未 - 也无法 - 涵盖所有情况。为了帮助开发者应对这些风险，我们创建了负责任使用指南。更多详细信息也可以在我们的研究论文中找到。