SimpleTuner 💹

⚠️ 警告：本仓库中的脚本可能会损坏您的训练数据。在继续操作之前，请务必备份。

SimpleTuner 是一个专门用于训练优化的实验性脚本集合。该项目注重简单性，致力于使代码易于阅读和理解。这个代码库作为一个共享的学术练习，欢迎贡献。

设计理念

在开始教程之前，请充分阅读本README，因为它包含了您可能需要首先了解的重要信息。

如果想快速开始而不阅读完整文档，可以使用快速入门指南。

对于内存受限的系统，请参阅DeepSpeed文档，其中解释了如何使用🤗Accelerate配置Microsoft的DeepSpeed以实现优化器状态卸载。

多GPU训练
图像和标题特征（嵌入）预先缓存到硬盘，使训练运行更快、内存消耗更少
纵横比分组：支持各种图像尺寸和纵横比，实现宽屏和竖屏训练。
SDXL的微调器LoRA或完整u-net训练
大多数模型可在24G GPU上训练，甚至在较低基本分辨率下可在16G上训练。
- PixArt、SDXL、SD3和SD 2.x的LoRA训练使用不到16G VRAM
DeepSpeed集成，允许在12G VRAM上训练SDXL的完整u-net，尽管速度很慢。
量化LoRA训练，使用低精度基础模型或文本编码器权重来减少VRAM消耗，同时仍允许DreamBooth。
可选的EMA（指数移动平均）权重网络，以抵消模型过拟合并提高训练稳定性。**注意：**这不适用于LoRA。
直接从S3兼容存储提供商训练，无需昂贵的本地存储。（已在Cloudflare R2和Wasabi S3上测试）
仅适用于SDXL和SD 1.x/2.x，完整的ControlNet模型训练（非ControlLoRA或ControlLite）
训练专家混合以实现轻量级、高质量的扩散模型
Webhook支持，用于更新例如Discord频道的训练进度、验证和错误
与Hugging Face Hub集成，实现无缝模型上传和自动生成精美的模型卡片。

包含Flux.1的初步训练支持：

SimpleTuner与PixArt Sigma有广泛的训练集成 - 600M和900M模型都可以无缝加载。

请参阅PixArt快速入门指南开始训练。

Stable Diffusion 2.1在微调过程中以难度著称，但事实并非如此。SimpleTuner中相关的功能包括：

一个基于SDXL的模型，使用ChatGLM（通用语言模型）6B作为其文本编码器，将隐藏维度大小翻倍，大幅增加了提示嵌入中包含的局部细节水平。

Kolors支持几乎与SDXL一样深入，除了不支持ControlNet训练。

EMA（指数移动平均）权重是一种内存密集型操作，但在训练结束时提供出色的结果。像--ema_cpu_only这样的选项可以通过将EMA权重加载到CPU并保持在那里来改善这种情况。

没有EMA，必须更加小心，不要通过使用正则化数据来大幅改变模型，导致"灾难性遗忘"。

NVIDIA - 3090及以上的几乎任何型号都是安全的选择。您的体验可能会有所不同。
AMD - 已验证SDXL LoRA和UNet在7900 XTX 24GB上可以工作。由于缺少xformers，它可能比Nvidia同等产品使用更多内存
Apple - LoRA和完整u-net调优经测试可在具有128G内存的M3 Max上工作，SDXL大约使用12G的"有线"内存和4G的系统内存。
- 由于缺乏内存高效的注意力机制，您可能需要24G或更大的机器来进行M系列硬件的机器学习。