stable-diffusion-xl-refiner-1.0

stable-diffusion-xl-refiner-1.0项目介绍

项目概述

stable-diffusion-xl-refiner-1.0是由Stability AI开发的一个基于扩散模型的文本到图像生成模型。它是SDXL(Stable Diffusion XL)系列的一部分,专门用于图像细化和提升质量。这个模型可以作为SDXL基础模型的补充,用于进一步改善生成图像的细节和质量。

模型架构

该模型采用了"专家集成"(ensemble of experts)的管道结构:

首先使用SDXL基础模型生成初步的(带噪声的)潜在表示。
然后使用这个细化模型专门处理最后的去噪步骤,进一步提升图像质量。

值得注意的是,SDXL基础模型也可以单独使用。另外,还可以采用两阶段的管道:先用基础模型生成目标尺寸的潜在表示,然后用专门的高分辨率模型对其应用SDEdit技术(也称为"img2img")。

主要特点

使用两个固定的预训练文本编码器:OpenCLIP-ViT/G和CLIP-ViT/L。
可以基于文本提示生成和修改图像。
采用CreativeML Open RAIL++-M许可证。
在GitHub上开源,提供了训练和推理的代码实现。

模型评估

根据用户偏好评估,SDXL基础模型的表现显著优于之前的变体,而结合细化模块的模型achieve了最佳整体性能。这表明stable-diffusion-xl-refiner-1.0在提升图像质量方面发挥了重要作用。

使用方法

研究人员可以通过Stability AI的GitHub仓库获取代码并进行实验。对于普通用户,可以使用Clipdrop提供的免费SDXL推理服务。使用Diffusers库也可以轻松地在Python中调用该模型:

import torch
from diffusers import StableDiffusionXLImg2ImgPipeline
from diffusers.utils import load_image

pipe = StableDiffusionXLImg2ImgPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-refiner-1.0", torch_dtype=torch.float16, variant="fp16", use_safetensors=True
)
pipe = pipe.to("cuda")

# 使用示例
url = "https://huggingface.co/datasets/patrickvonplaten/images/resolve/main/aa_xl/000000009.png"
init_image = load_image(url).convert("RGB")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt, image=init_image).images