我的一位从事艺术/设计工作的朋友想在自己配备GPU的电脑上尝试Stable Diffusion，但他对编程不太了解，所以我想通过快速制作一个docker构建来帮助他。这个仓库包含了构建所需的文件。

我还自作主张添加了一个简单的网页界面（使用gradio制作）来包装模型。也许我们可以稍微改进一下，提供更多功能（参见TODO）。

**更新：**我们现在支持使用"数据并行"方法在多个GPU上进行推理。

**更新2：**我们现在支持使用"模型并行"方法在多个GPU上进行推理（参见"多GPU"部分）。

更新3（实际上是v2）：Stable Diffusion 2.0已经发布，生成的图像比以往更加美丽！这现在是默认加载的模型，它支持所有以前的功能以及更多。我还添加了对图像到图像和图像修复的支持，并刷新了用户界面，快来试试吧！

要求

操作系统：Ubuntu（在20.04上测试过）或Windows（在Windows 10 21H2上测试过）
Nvidia GPU，至少6GB显存（GTX 700系列及以上，请参考这里）。请注意，你想生成的图像尺寸（或图像数量）越大，需要的内存就越多。作为参考，生成一张256x256的图像应该占用约5GB，而512x512约需7GB。
可用磁盘空间 > 2.8GB
Docker和Nvidia-docker
HuggingFace账户~~以及注册此仓库https://huggingface.co/CompVis/stable-diffusion-v1-4（只需点击`Access Repository`）~~。如果使用默认的v2模型，则不再需要（参见下文"关于模型版本"）。

安装

首先，确保你的机器上已安装Docker和nvidia-docker。

Windows用户：从商店安装WSL/Ubuntu->安装docker并启动->将Windows 10更新到21H2版本（Windows 11应该可以直接使用）->测试GPU支持（在WSL中简单运行nvidia-smi应该就可以）。如果在WSL中nvidia-smi不工作，请确保你已从官方应用更新了nvidia驱动程序。

尝试模型的最简单方法是直接使用nicklucche/stable-diffusion的预构建镜像。

我建议你第一次运行时使用以下命令启动容器：

docker run --name stable-diffusion --pull=always --gpus all -it -p 7860:7860 nicklucche/stable-diffusion

因为它会下载模型权重（可能需要几分钟）并将它们存储在磁盘上（只要你不删除容器）。然后你可以简单地执行docker stop stable-diffusion来停止容器，需要时再用docker start stable-diffusion重新启动它。 --pull=always是为了确保你从dockerhub获取最新的镜像，如果你已经在本地有了，可以跳过这个选项。

初始化阶段完成后，你的终端中会出现一条消息（docker logs stable-diffusion），然后你应该能够在你喜欢的浏览器中访问http://localhost:7860/ 并看到类似这样的界面：

默认情况下，加载的是半精度/fp16模型。如果你计划在内存小于10GB的GPU上运行模型，这是推荐的方法（占用一半的空间，耗时约一半，产生类似的输出）。要禁用FP16并使用单精度（FP32）进行推理，请在docker run选项中设置环境变量FP16=0，如下所示：

docker run .. -e FP16=0 ...

多GPU

模型可以以"数据并行"或组合的"模型+数据并行"方式运行，以加快推理时间并充分利用你的多GPU设置。

数据并行

这意味着模型被复制到多个GPU上，每个GPU由一个单独的子进程处理。默认情况下，模型在设备0上运行（无并行）。你可以通过添加以下选项之一来指定所需的设备：

-e DEVICES=1 ... 在GPU 1上运行模型（从0开始计数）
-e DEVICES=0,1 ... 在GPU 0和1上运行模型
-e DEVICES=all ... 在所有可用的GPU上运行模型

每个设备/模型生成一个完整的图像，所以确保你增加"Number of Images"滑块以并行生成多个图像！（单个图像生成速度不会受影响）。

我还应该提到，添加nsfw过滤器（通过勾选相应的框）会包括将额外的模型移动到GPU，所以可能会导致内存不足的问题。

模型并行 -目前已禁用！请使用"数据并行"实现真正的并行！-

它通过将模型分割成固定数量的部分，将每个部分分配给一个设备，然后处理从一个设备到另一个设备的数据传输来工作（更多技术细节在这里或从源代码）。这最初是为了支持那些拥有小容量显存的GPU的设置，只有通过组合它们的资源才能运行模型，但现在它也支持将多个模型分割以适应更大的GPU，有效地结合了模型和数据并行。

在这种模式下，单个图像推理会更慢（因为我们可能需要将数据从一个设备移动到另一个设备），但如果你有大容量GPU，它允许通过创建多个模型来更有效地填满内存。你可以通过以下选项尝试这个功能：

-e MODEL_PARALLEL=1 请注意，如果您的系统GPU内存分布极不均衡（例如gpu0->6Gb，gpu1->24Gb...），最小的设备可能会成为推理过程的瓶颈；最简单的解决方法是在DEVICES列表中不指定最小的设备（例如-e DEVICES=1,2..），从而忽略它。