PiSSA

PiSSA

高效微调大语言模型的创新方法

PiSSA是一种创新的参数高效微调方法,通过优化关键奇异值和向量来增强大语言模型性能。相较于LoRA,PiSSA展现出更快的收敛速度和更优的效果。在多个基准测试中,PiSSA的表现全面超越LoRA。这种方法不仅保留了LoRA的参数效率和量化兼容性优势,还大幅降低了4位量化误差。PiSSA初始化迅速,易于从LoRA转换。在多种模型和任务中,PiSSA均表现出色,为大语言模型的高效微调提供了新的可能性。

PiSSA参数高效微调大语言模型低秩适应奇异值分解Github开源项目

Pri主奇异值和奇异向量S适应

引言

我们提出了一种参数高效的微调(PEFT)方法,称为Pri主奇异值和奇异向量A适应(PiSSA),该方法优化关键的奇异值和向量,同时冻结"噪声"部分。相比之下,LoRA冻结原始矩阵并更新"噪声"。这种区别使得PiSSA能够比LoRA收敛得更快,并最终获得更好的性能。在五个常见的基准测试中,PiSSA在使用完全相同的设置(除了不同的初始化)的情况下,在所有测试中都优于LoRA。在GSM8K上,使用PiSSA微调的Mistral-7B达到了72.86%的准确率,比LoRA的67.7%高出5.16%。 由于架构相同,PiSSA继承了LoRA的许多优点,如参数效率和与量化的兼容性。 此外,PiSSA将LLaMA 2-7B的4位量化误差减少了18.97%,显著提高了微调性能。在GSM8K基准测试中,PiSSA达到了49.13%的准确率,超过了QLoRA的39.8%和LoftQ的40.71%。 利用快速SVD技术,PiSSA的初始化只需几秒钟,将LoRA切换到PiSSA的成本几乎可以忽略不计。

PiSSA llama-3-8b models loss-landscape

新闻

  • [2024.07.17] PiSSA现在支持Conv2d和Embedding,这里是在SDXL上使用PiSSA的示例。
  • [2024.07.16] PiSSA现在支持deepspeed。
  • [2024.05.16] PiSSA已被合并到peft的主分支中,作为LoRA的可选初始化方法。

快速开始

通过pip安装PiSSA:

conda create -n pissa python=3.10
conda activate pissa
conda install nvidia/label/cuda-12.1.0::cuda-toolkit
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt
pip install flash-attn --no-build-isolation

复现结果

我们使用的所有数据集都可以在数据集公开获取。

PiSSA初始化的模型在模型上共享,以便于重复使用。它们保留了与原始模型相同的输入和输出,但被分为残差模型和PiSSA适配器,以实现更有效的微调。

PiSSAQPiSSA
LLaMA-2-7Br128r16,32,64,128
LLaMA-3-8Br16,32,64,128r64,128
LLaMA-3-8B-Instructr16,32,64,128--
LLaMA-3-70B--r64,128
LLaMA-3-70B-Instruct--r128
Qwen2-7Br128r128
Qwen2-7B-Instructr128r128
Qwen2-72B--r64,128
Qwen2-72B-Instruct--r64,128

训练

运行以下脚本将自动下载数据集和模型,然后开始训练:

sh scripts/run_full_finetune.sh
sh scripts/lora.sh
sh scripts/pissa.sh
sh scripts/loftq.sh
sh scripts/qlora.sh
sh scripts/qpissa.sh

评估

要评估您微调模型的性能,请按照fxmeng/pissa-evaluation-code中的说明进行操作。

高级用法

我们建议直接从Hugging Face Collections下载分解后的模型,而不是每次都执行SVD。 如果现有模型不能满足您的需求,可以对预训练模型应用PiSSA初始化,并将分解后的模型本地存储:

import torch import os from peft import LoraConfig, get_peft_model from transformers import AutoTokenizer, AutoModelForCausalLM MODEL_ID = "meta-llama/Llama-2-7b-hf" model = AutoModelForCausalLM.from_pretrained(MODEL_ID, torch_dtype=torch.bfloat16, device_map="auto") tokenizer = AutoTokenizer.from_pretrained(MODEL_ID) tokenizer.pad_token_id = tokenizer.eos_token_id lora_config = LoraConfig( # init_lora_weights="pissa", # 将初始化方法配置为"pissa",这可能需要几分钟来对预训练模型执行SVD。 init_lora_weights="pissa_niter_4", # 使用快速SVD初始化PiSSA,只需几秒钟即可完成。 r=128, lora_alpha=128, lora_dropout=0, # 由于PiSSA适配器的组成部分是主要奇异值和向量,dropout应设置为0以避免随机丢弃。 target_modules=["q_proj", "o_proj", "k_proj", "v_proj", "gate_proj", "up_proj", "down_proj"], task_type="CAUSAL_LM", ) peft_model = get_peft_model(model, lora_config) peft_model.print_trainable_parameters() OUTPUT_DIR="PiSSA-Llama-2-7b-hf-r128" # 保存PiSSA模块: peft_model.peft_config["default"].init_lora_weights = True # 重要 peft_model.save_pretrained(os.path.join(OUTPUT_DIR, "pissa_init")) # 保存残差模型: peft_model = peft_model.unload() peft_model.save_pretrained(OUTPUT_DIR) # 保存分词器: tokenizer.save_pretrained(OUTPUT_DIR)

加载预处理过的模型并在IMDB数据集上进行微调:

from trl import SFTTrainer from datasets import load_dataset from transformers import AutoTokenizer, AutoModelForCausalLM from peft import PeftModel MODEL_ID = "PiSSA-Llama-2-7b-hf-r128" residual_model = AutoModelForCausalLM.from_pretrained(MODEL_ID,device_map="auto") model = PeftModel.from_pretrained(residual_model, MODEL_ID, subfolder = "pissa_init", is_trainable=True) tokenizer = AutoTokenizer.from_pretrained(MODEL_ID) dataset = load_dataset("imdb", split="train[:1%]") # 仅使用1%的数据集 trainer = SFTTrainer( model=peft_model, train_dataset=dataset, dataset_text_field="text", max_seq_length=128, tokenizer=tokenizer, ) trainer.train() peft_model.save_pretrained("pissa-llama-2-7b-ft")

将PiSSA转换为LoRA

使用peft_model.save_pretrained时,如果path_initial_model_for_weight_conversion=None,会保存微调后的矩阵$A$和$B$,应与残差模型结合使用。然而,当指定path_initial_model_for_weight_conversion="pissa_init_dir"时,保存函数会通过$\Delta W = A B - A_0 B_0 = [A | A_0] [B | -B_0]^T=A^{'}B^{'}$将PiSSA转换为LoRA。这种转换使得可以在标准基础模型之上加载LoRA:

import torch from peft import PeftModel from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained( "meta-llama/Llama-2-7b-hf", torch_dtype=torch.bfloat16, device_map="auto" ) # 在此步骤中不执行SVD,基础模型保持不变。 peft_model = PeftModel.from_pretrained(model, "pissa-llama-2-7b-lora")

使用转换后的LoRA不需要修改基础模型的参数。当同时需要多个转换后的LoRA时,每个适配器独立运行而不会相互干扰,允许自由删除或添加适配器。

引用

@article{meng2024pissa,
  title={Pissa: Principal singular values and singular vectors adaptation of large language models},
  author={Meng, Fanxu and Wang, Zhaohui and Zhang, Muhan},
  journal={arXiv preprint arXiv:2404.02948},
  year={2024}
}

Star历史

Star历史图表

后续工作

2024年5月27日, LoRA-XS: 使用极少参数的低秩适配 对主要奇异值和奇异向量进行基础适配。
2024年5月30日, SVFT: 使用奇异向量的参数高效微调 冻结奇异向量,同时以稀疏方式微调奇异值。
2024年6月3日, OLoRA: 大型语言模型的正交低秩适配, 利用QR分解进行正交矩阵初始化。
2024年6月7日, CorDA: 大型语言模型的上下文导向分解适配, 通过上下文导向分解利用知识保留适配和指令预览适配。
2024年6月7日, MiLoRA: 利用次要奇异分量进行参数高效的LLM微调, 次要奇异分量适配。
2024年6月18日, LaMDA: 通过谱分解的低维适配进行大型模型微调 对主要奇异值和奇异向量进行基础适配。
2024年7月6日, LoRA-GA: 具有梯度近似的低秩适配 在第一步对齐低秩矩阵乘积的梯度与全量微调的梯度。

编辑推荐精选

暂无图片
Xiaomi Home

Xiaomi Home

集成小米智能家居设备,提供便捷控制与管理功能的 Home Assistant 自定义组件。

Xiaomi Home 是一款用于 Home Assistant 的自定义组件,可帮助用户轻松集成和管理小米智能家居设备。支持多种设备类型,具备丰富的功能和良好的兼容性,为用户打造便捷、智能的家居生活体验。

暂无图片
Open-R1

Open-R1

一个完全开源重现 DeepSeek - R1 的项目

Open R1 是一个致力于完全开源重现 DeepSeek - R1 的项目。项目提供了训练、评估模型以及生成合成数据的脚本,支持多种训练方法和评估基准测试。用户可以通过简单的命令运行各个步骤,同时还提供了在 Slurm 集群上运行作业的脚本。项目还发布了多个数据集,为模型训练提供了丰富的数据资源,适合对模型训练和评估感兴趣的开发者和研究人员。

OpenManus

OpenManus

一个具备多种工具和代理功能,可用于解决复杂任务规划、网络搜索、浏览器操作等的项目。

OpenManus 是一个功能强大的开源项目,提供了丰富的工具和代理机制。包含规划工具、多种搜索引擎、浏览器操作工具等,能帮助开发者高效解决复杂任务的规划、网络信息搜索以及浏览器自动化操作等问题。支持多种语言,拥有清晰的文档和代码结构,易于集成和扩展,适用于各类需要自动化任务处理的场景。

MarkItDown

MarkItDown

一个支持多种格式转换的工具库

MarkItDown 是一个强大的 Python 工具库,专注于文档格式转换。它能够处理多种类型的文件,如 HTML、Wikipedia 页面以及 Bing 搜索结果页等,将其转换为 Markdown 格式。该项目支持插件扩展,提供了清晰的接口和丰富的功能,为开发者和文档处理人员提供了便捷、高效的文档转换解决方案,能有效提升文档处理效率,是文档转换领域的优秀选择。

Trae

Trae

字节跳动发布的AI编程神器IDE

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
OmniParser

OmniParser

帮助AI理解电脑屏幕 纯视觉GUI元素的自动化解析方案

开源工具通过计算机视觉技术实现图形界面元素的智能识别与结构化处理,支持自动化测试脚本生成和辅助功能开发。项目采用模块化设计,提供API接口与多种输出格式,适用于跨平台应用场景。核心算法优化了元素定位精度,在动态界面和复杂布局场景下保持稳定解析能力。

OmniParser界面解析交互区域检测Github开源项目
Grok3

Grok3

埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型

Grok3 是由埃隆·马斯克旗下的人工智能公司 xAI 推出的第三代大规模语言模型,常被马斯克称为“地球上最聪明的 AI”。它不仅是在前代产品 Grok 1 和 Grok 2 基础上的一次飞跃,还在多个关键技术上实现了创新突破。

腾讯元宝

腾讯元宝

腾讯自研的混元大模型AI助手

腾讯元宝是腾讯基于自研的混元大模型推出的一款多功能AI应用,旨在通过人工智能技术提升用户在写作、绘画、翻译、编程、搜索、阅读总结等多个领域的工作与生活效率。

AI助手AI对话AI工具腾讯元宝智能体热门 AI 办公助手
Windsurf Wave 3

Windsurf Wave 3

Windsurf Editor推出第三次重大更新Wave 3

新增模型上下文协议支持与智能编辑功能。本次更新包含五项核心改进:支持接入MCP协议扩展工具生态,Tab键智能跳转提升编码效率,Turbo模式实现自动化终端操作,图片拖拽功能优化多模态交互,以及面向付费用户的个性化图标定制。系统同步集成DeepSeek、Gemini等新模型,并通过信用点数机制实现差异化的资源调配。

AI IDE
Cursor

Cursor

增强编程效率的AI代码编辑器

Cursor作为AI驱动的代码编辑工具,助力开发者效率大幅度提升。该工具简化了扩展、主题和键位配置的导入,可靠的隐私保护措施保证代码安全,深受全球开发者信赖。此外,Cursor持续推出更新,不断优化功能和用户体验。

AI开发辅助编程AI工具CursorAI代码编辑器
下拉加载更多