批处理LoRA

通过在同一批次中路由多个LoRA的推理来最大化GPU利用率。

解释由@yacineMTB提供。

<table> <tr> <td align="center"> <img src="https://github.com/sabetAI/BLoRA/assets/28828395/a99a7503-e022-4012-84fb-4626d8a15cc5" alt="图片1" /> <p>低秩层适配器的可训练参数很小，可以同时全部保存在显存中。这意味着，你可以使用相同的基础模型，通过切换LoRA来改变其行为。Huggingface的PEFT允许通过其API交换适配器。</p> </td> <td align="center"> <img src="https://github.com/sabetAI/BLoRA/assets/28828395/759326cb-d4da-402c-940b-ad479144b6e4" alt="图片2"/> <p>但如果你想同时对所有适配器进行推理呢？LoRA操作其实很简单！它创建一个与适配层形状相同的输出，然后将它们相加。这肯定可以广播，对吧？</p> </td> <td align="center"> <img src="https://github.com/sabetAI/BLoRA/assets/28828395/b335b30c-438c-494b-ad74-65debcd1910e" alt="图片3" /> <p>确实如此！如果你有相同数量的LoRA适配器，你可以设计一个操作来应用于每个相应的批次。多个模型共享相同的权重。</p> </td> </tr> </table>

使用方法：

0. 克隆仓库

使用git克隆仓库，运行：

git clone https://github.com/sabetAI/BLoRA.git
cd BLoRA

设置虚拟环境（推荐）并安装所需包

pip install -r requirements.txt

1. 加载基础模型

from transformers import LlamaForCausalLM, LlamaTokenizer

model_path = "decapoda-research/llama-7b-hf"
model = transformers.LlamaForCausalLM.from_pretrained(model_path, trust_remote_code=True)
tokenizer = transformers.LlamaTokenizer.from_pretrained(model_path)
tokenizer.pad_token = 0

2. 从检查点路径将lora注入基础模型

from blora_utils import load_loras

loras = ["jondurbin/airoboros-7b-gpt4-1.2-peft", 
         "trl-lib/llama-7b-se-rl-peft",
         "winddude/wizardLM-LlaMA-LoRA-7B"]
model, lora_map = load_loras(model, loras)

3. 通过侧载lora批次ID到模型中准备批次（hack）

from blora_utils import prepare_batch

inputs = [('概述一个五句话的短篇故事，其中一个角色在他们的房子里偶然发现一个秘密房间，里面装有来自他们未来的遗物。',
  'jondurbin/airoboros-7b-gpt4-1.2-peft'),
 ('写一段6行的对话，内容是一个角色与只有他们能看到的神奇生物之间的对话。',
  'trl-lib/llama-7b-se-rl-peft'),
 ('描述一个四句话的场景，其中一个角色发现了一项改变他们一生的隐藏天赋。',
  'winddude/wizardLM-LlaMA-LoRA-7B'),
 ('创作一首三节诗，描述在一个郁郁葱葱、充满活力的盛开花园中漫步的感觉。',
  'trl-lib/llama-7b-se-rl-peft'),
 ('创作一个八句话的短篇故事，讲述一个能将梦境变为现实的角色，但只能持续有限的时间。',
  'winddude/wizardLM-LlaMA-LoRA-7B')]

batch = prepare_batch(inputs, tokenizer, model, lora_map)

4. 流式输出

outputs = []

for out in model.generate(**batch, max_length=200, stream_output=True):
    outputs.append(out)
    batch_decoded = tokenizer.batch_decode(
        torch.cat([out.reshape(-1, 1) for out in outputs], dim=1)
    )
    print(
        "\n\n".join(
            [
                lora + ":\n" + prompt + "\n" + decoded
                for (prompt, lora), decoded in zip(inputs, batch_decoded)
            ]
        )
    )