wuerstchen

Würstchen项目介绍

项目概述

Würstchen是一个创新的扩散模型，专门用于根据文本生成图像。它的独特之处在于其在高度压缩的潜在图像空间中工作。这种高效的数据压缩大大降低了训练和推断的计算成本。传统的图像分辨率如1024x1024的训练需要很高的资源消耗，而Würstchen通过其独特的设计实现了惊人的42倍空间压缩。通常，其他方法在超过16倍空间压缩时会出现图像细节的丢失，而Würstchen通过两阶段压缩策略成功克服了这一难题。第一阶段（Stage A）和第二阶段（Stage B）分别是VQGAN和扩散自动编码器。第三个模型（Stage C）则在高度压缩的潜在空间中进行训练。这种结构使得模型比当前的顶尖模型使用更少的计算资源，实现更快速和经济的推断。

解码器

解码器是Würstchen中的关键组件，它包括Stage A和Stage B。当解码器接收到图像嵌入（这些嵌入可能是Prior阶段生成的，也可能是从真实图像中提取的），它能将这些潜在编码还原成像素图像。具体来说，Stage B负责将图像嵌入解码到VQGAN空间，而Stage A会将潜在编码解码为最终的像素图像。两者结合，实现了42倍的空间压缩。

注意

目前图像重建过程中会存在损耗，尤其在人脸、手部等细节上，我们肉眼可能会明显察觉这一点。项目团队正在努力提高未来的重建质量。

图像尺寸

Würstchen模型在1024x1024到1536x1536之间的图像分辨率上进行了训练，我们也观察到在1024x2048等分辨率下能产生理想输出。用户可以根据需要自行尝试不同分辨率。Prior（Stage C）对新分辨率适应非常迅速，因此对2048x2048的细化调整应该是计算有效的。

如何使用

要运行这个流水线，你需要结合前阶段组件：

import torch
from diffusers import AutoPipelineForText2Image

device = "cuda"
dtype = torch.float16

pipeline =  AutoPipelineForText2Image.from_pretrained(
    "warp-diffusion/wuerstchen", torch_dtype=dtype
).to(device)

caption = "Anthropomorphic cat dressed as a fire fighter"

output = pipeline(
    prompt=caption,
    height=1024,
    width=1024,
    prior_guidance_scale=4.0,
    decoder_guidance_scale=0.0,
).images