Phi2-mini-Chinese

Phi2-mini-Chinese 项目介绍

Phi2-mini-Chinese 是一个实验性项目，旨在从零开始训练自己的中文小模型。此项目主要适用于研究和实验目的，并开源了代码与模型权重。项目中使用的预训练数据量较少，如果对效果有更高要求，可以参考 ChatLM-mini-Chinese 项目。

实验性质的说明

此项目具有实验性质，可能会对训练数据、模型结构和文件目录结构等进行大幅度的修改。初始版本的模型可以在代码库中找到对应的 tag v1.0。

支持功能

该项目提供了 flash attention 2 加速功能，能够提高模型的运行效率。

数据处理

数据清洗是模型训练的基础步骤。这个项目中所涉及的清洗步骤包括：

在句末添加句号
将繁体字转为简体字
删除重复的标点符号
进行 Unicode NFKC 标准化，特别是将全角字符转为半角字符以及处理网页数据中的特殊空格符等问题

关于具体的数据清洗方法，可以参考 ChatLM-mini-Chinese 项目。

分词器训练

Phi2-mini-Chinese 项目使用了字节级（byte level）BPE 分词器，同时也提供字符级（char level）分词器的训练代码。训练好的分词器需要确认是否包含常见的特殊符号，例如 \t、\n 等。如果缺少，通过 add_tokens 函数进行添加。

由于分词器训练过程需要大量的内存：

字节级分词器需要至少 32G 内存来训练 1 亿个字符。
字符级分词器则需要相同内存来处理 6.5 亿个字符数据量。

对于大数据集，建议从数据集中进行采样来减小训练压力。

CLM 预训练

CLM 模型通过无监督学习方式对大量文本进行预训练。主要使用 Bell 开源的数据集。单个数据样本以一句话表示，过长的陈述可以分割成多个数据样本。在处理百科语料时，建议在每个词条后添加 '[EOS]' 标记。

指令微调（SFT）

SFT 主要使用了同样的开源数据集，数据格式如下所示：

text = f"##提问:\n{example['instruction']}\n##回答:\n{example['output'][EOS]"

模型在计算损失时将忽略从标记 "##回答:" 开始以前的部分。确保在句子的最后添加 EOS 标记，以便于模型在生成过程中判断何时结束。

RLHF 优化

采用 DPO（偏好优化）方法进行改进，优化过程通过构造数据集的三列信息：prompt、chosen 和 rejected 来实现。

模型使用方法

普通对话能力

用户可通过 huggingface 仓库下载模型权重，并利用 Transformers 库加载模型进行推理。

下面是一个简单的代码示例：

from transformers import AutoTokenizer, AutoModelForCausalLM, GenerationConfig
import torch

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

tokenizer = AutoTokenizer.from_pretrained('charent/Phi2-Chinese-0.2B')
model = AutoModelForCausalLM.from_pretrained('charent/Phi2-Chinese-0.2B').to(device)

txt = '感冒了要怎么办？'
prompt = f"##提问:\n{txt}\n##回答:\n"

# greedy search
gen_conf = GenerationConfig(
    num_beams=1,
    do_sample=False,
    max_length=320,
    max_new_tokens=256,
    no_repeat_ngram_size=4,
    eos_token_id=tokenizer.eos_token_id,
    pad_token_id=tokenizer.pad_token_id,
)

tokend = tokenizer.encode_plus(text=prompt)
input_ids, attention_mask = torch.LongTensor([tokend.input_ids]).to(device), \
    torch.LongTensor([tokend.attention_mask]).to(device)

outputs = model.generate(
    inputs=input_ids,
    attention_mask=attention_mask,
    generation_config=gen_conf,
)

outs = tokenizer.decode(outputs[0].cpu().numpy(), clean_up_tokenization_spaces=True, skip_special_tokens=True,)
print(outs)

检索式生成（RAG）

具体代码可以在项目中的 rag_with_langchain.ipynb 文件中找到。

引用

如果该项目对您有所帮助，可以按以下格式进行引用：

@misc{Charent2023,
    author={Charent Chen},
    title={A small Chinese causal language model with 0.2B parameters base on Phi2},
    year={2023},
    publisher = {GitHub},
    journal = {GitHub repository},
    howpublished = {https://github.com/charent/Phi2-mini-Chinese},
}