granite-3.0-2b-instruct

Granite-3.0-2B-Instruct项目介绍

项目概述

Granite-3.0-2B-Instruct是一个大型语言模型，由IBM的Granite团队开发，包含20亿参数。它是基于Granite-3.0-2B-Base模型进行微调，采用开放许可的外部指令数据集和内部合成数据集组合而成。这款模型的开发过程使用了一系列多样化的技术，包括监督微调、通过强化学习进行模型对齐以及模型合并。

参与人员与公开资料

开发团队: IBM的Granite团队
GitHub仓库: ibm-granite/granite-3.0-language-models
官方网站: Granite文档
学术论文: Granite 3.0语言模型
发布日期: 2024年10月21日
许可协议: Apache 2.0

支持语言

Granite-3.0-2B-Instruct支持多种语言，包括英语、德语、西班牙语、法语、日语、葡萄牙语、阿拉伯语、捷克语、意大利语、韩语、荷兰语和中文。用户可以对模型进行进一步微调，以支持上述12种语言以外的其他语言。

预期用途

该模型旨在响应一般指令，可用于建立适用于各种领域的人工智能助手，包括商业应用程序。其功能包括但不限于：

文本总结
文本分类
文本提取
问答
检索增强生成
代码相关任务
函数调用任务
多语言对话场景

模型使用示例

要使用Granite-3.0-2B-Instruct模型，需要先安装以下库：

pip install torch torchvision torchaudio
pip install accelerate
pip install transformers

然后，运行以下Python代码以体验模型的基本用法：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

device = "auto"
model_path = "ibm-granite/granite-3.0-2b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)
model.eval()

chat = [
    { "role": "user", "content": "Please list one IBM Research laboratory located in the United States. You should only output its name and location." },
]
chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
input_tokens = tokenizer(chat, return_tensors="pt").to(device)
output = model.generate(**input_tokens, max_new_tokens=100)
output = tokenizer.batch_decode(output)
print(output)

模型架构

Granite-3.0-2B-Instruct基于仅解码的稠密Transformer架构。其核心组件包括GQA和RoPE、带SwiGLU的MLP、RMSNorm以及共享输入/输出嵌入。

模型	2B Dense	8B Dense	1B MoE	3B MoE
嵌入层大小	2048	4096	1024	1536
层数	40	40	24	32
注意力头大小	64	128	64	64
注意力头数量	32	32	16	24
KV头数量	8	8	8	8
MLP隐藏层大小	8192	12800	512	512
MLP激活函数	SwiGLU	SwiGLU	SwiGLU	SwiGLU
专家数量	—	—	32	40
MoE TopK	—	—	8	8
初始化标准差	0.1	0.1	0.1	0.1
序列长度	4096	4096	4096	4096
位置嵌入方式	RoPE	RoPE	RoPE	RoPE
参数数量	2.5B	8.1B	1.3B	3.3B
有效参数数量	2.5B	8.1B	400M	800M
训练代币数量	12T	12T	10T	10T

训练数据

Granite-3.0-2B-Instruct模型的监督微调(SFT)数据主要由三类来源构成：

具有开放许可的公开数据集，
针对特定功能的内部合成数据，
一小部分人类策划的数据。

更详细的数据集来源可以在Granite技术报告和附带作者列表中找到。

基础设施

Granite 3.0语言模型是在IBM的Blue Vela超级计算集群上进行训练的，该集群配备了NVIDIA H100 GPU。这个集群提供了可扩展且高效的基础设施，能够在数千个GPU上训练模型，并通过使用100%可再生能源最大限度地减少环境影响。

伦理考量和局限性

Granite 3.0 Instruct模型主要使用英语和多语言数据进行指令响应微调，涵盖十一种语言。尽管该模型可以处理多语言对话场景，其性能可能无法与英语任务相媲美。在这种情况下，少量示例（few-shot）的使用可以帮助模型生成更准确的输出。虽然模型对安全性进行了对齐，但在某些情况下，它可能会产生不准确、偏见或不安全的响应。因此，我们敦促社区在使用该模型时，进行适当的安全测试和针对特定任务进行的微调。