llama-30b-instruct-2048

项目介绍：llama-30b-instruct-2048

项目背景

llama-30b-instruct-2048是由Upstage公司开发的一款先进的文本生成模型。它基于LLaMA模型构建，是一个具有2048长度序列的30亿参数模型。此外，还有其他参数大小和序列长度的变种，如30B/1024和65B/1024。该模型主要用于生成英文文本，并得到了广泛的实验和测试。

数据集

在训练过程中，模型使用了以下数据集：

这些数据集为模型提供了广泛的知识基础，从而提升其生成文本的能力。

使用方法

该模型主要在拥有80GB显存的A100 GPU上进行了测试，能够处理超过10,000个输入令牌。以下是一个简单的使用示例：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer

tokenizer = AutoTokenizer.from_pretrained("upstage/llama-30b-instruct-2048")
model = AutoModelForCausalLM.from_pretrained(
    "upstage/llama-30b-instruct-2048",
    device_map="auto",
    torch_dtype=torch.float16,
    load_in_8bit=True,
    rope_scaling={"type": "dynamic", "factor": 2} 
)

prompt = "### User:\nThomas is healthy, but he has to go to the hospital. What could be the reasons?\n\n### Assistant:\n"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
del inputs["token_type_ids"]
streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True)

output = model.generate(**inputs, streamer=streamer, use_cache=True, max_new_tokens=float('inf'))
output_text = tokenizer.decode(output[0], skip_special_tokens=True)

硬件和软件

模型的训练在八个A100 GPU上进行，同时结合使用了DeepSpeed库、HuggingFace Trainer和HuggingFace Accelerate工具，以实现高效的模型微调。

性能评价

在多个国际公认的数据集上进行的性能评估中，llama-30b-instruct-2048取得了不错的成绩。具体测评包括ARC-Challenge、HellaSwag、MMLU和TruthfulQA等基准数据集。此外，还使用MT-bench提出了一系列复杂的多轮开放式问题，对模型进行了全面的性能测试。