StarCoder2-Instruct：全透明和完全开放的代码生成自对齐模型

starcoder2-self-align

StarCoder2-Instruct：开创代码生成自对齐新纪元

在人工智能和自然语言处理领域，大语言模型(LLM)的发展日新月异。今天，我们将为大家介绍一个突破性的项目——StarCoder2-Instruct，这是一个完全自对齐的代码生成大语言模型，其训练过程完全透明且具有开放许可。这一创新模型为代码生成领域带来了新的可能性，让我们一起深入了解这个令人兴奋的项目。

项目概述

StarCoder2-Instruct-v0.1是第一个完全自对齐的代码生成大语言模型，其训练过程采用了全透明和完全开放的管道。该项目由一群杰出的研究人员共同完成，包括Yuxiang Wei、Federico Cassano、Jiawei Liu等多位专家。

StarCoder2-Instruct项目概览

这个开源项目使用StarCoder2-15B模型生成了成千上万的指令-响应对，然后用这些数据对StarCoder-15B本身进行微调，整个过程不需要任何人工标注或来自大型专有LLM的蒸馏数据。这种自对齐方法不仅提高了模型的性能，还确保了整个过程的透明度和可重复性。

核心特性

完全自对齐：StarCoder2-Instruct是首个完全依靠自身能力进行对齐的代码生成模型，无需人工干预。
透明训练过程：整个训练管道完全开源，确保了过程的透明度和可验证性。
开放许可：项目采用开放许可，鼓励社区参与和创新。
高效训练：仅需一台NVIDIA A100 80GB GPU即可完成对StarCoder2-15B的微调。
多语言支持：虽然主要针对Python进行了优化，但模型也具备处理其他编程语言的潜力。

技术细节

StarCoder2-Instruct的训练过程包括几个关键步骤：

数据生成：使用vLLM的OpenAI兼容服务器生成训练数据。
概念生成：从代码片段生成概念。
指令生成：基于概念生成指令。
响应生成：根据指令生成响应，包括自验证代码。
执行过滤：通过执行验证生成的代码质量。
数据清理与选择：确保数据的多样性和质量。

StarCoder2-Instruct自对齐管道

模型训练

StarCoder2-Instruct的训练采用了以下超参数：

优化器：Adafactor
学习率：1e-5
训练轮数：4
批次大小：64
预热比例：0.05
调度器：线性
序列长度：1280
无Dropout应用

这些精心调校的参数确保了模型在训练过程中能够高效学习，同时保持良好的泛化能力。

评估结果

StarCoder2-Instruct在多个基准测试中展现出了优秀的性能，包括EvalPlus、LiveCodeBench和DS-1000。

EvalPlus评估结果

LiveCodeBench和DS-1000评估结果

这些评估结果表明，StarCoder2-Instruct在代码生成和理解方面具有强大的能力，特别是在Python编程任务上表现突出。

快速上手

对于想要尝试StarCoder2-Instruct的开发者，项目提供了简单的使用方法。以下是一个使用Transformers库的示例代码：

import transformers
import torch

pipeline = transformers.pipeline(
    model="bigcode/starcoder2-15b-instruct-v0.1",
    task="text-generation",
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

def respond(instruction: str, response_prefix: str) -> str:
    messages = [{"role": "user", "content": instruction}]
    prompt = pipeline.tokenizer.apply_chat_template(messages, tokenize=False)
    prompt += response_prefix

    terminators = [
        pipeline.tokenizer.eos_token_id,
        pipeline.tokenizer.convert_tokens_to_ids("###"),
    ]

    result = pipeline(
        prompt,
        max_length=256,
        num_return_sequences=1,
        do_sample=False,
        eos_token_id=terminators,
        pad_token_id=pipeline.tokenizer.eos_token_id,
        truncation=True,
    )
    response = response_prefix + result[0]["generated_text"][len(prompt):].split("###")[0].rstrip()
    return response

instruction = "Write a quicksort function in Python with type hints and a 'less_than' parameter for custom sorting criteria."
response_prefix = ""

print(respond(instruction, response_prefix))