基于像素感知的稳定扩散用于真实图像超分辨率和个性化风格化 (ECCV2024)

论文

杨涛1，吴荣源2，任佩然3，谢宣松3，张磊2
1字节跳动
2香港理工大学计算机系
3阿里巴巴达摩院

新闻

(2024-8-15) PASD-SDXL 即将发布。它远远超过了 PASD-SD1.5。敬请期待！ <img src="https://yellow-cdn.veclightyear.com/835a84d5/7e4a8b5e-4095-4bba-8a35-733d051eb5bc.png" width="780px"/> <img src="https://yellow-cdn.veclightyear.com/835a84d5/680155b2-6b03-46ac-9229-2f541960c091.png" width="780px"/>

(2024-7-1) 被 ECCV2024 接收。我们的论文新版本将很快更新。

(2024-3-18) 请尝试我们的着色模型，使用命令 python test_pasd.y --pasd_model_path runs/pasd_color/checkpoint-180000 --control_type grayscale --high_level_info caption --use_pasd_light。你应该使用 runs/pasd_color/scheduler 中提供的噪声调度器，它已更新以确保零终端信噪比，避免训练期间 RGB 图像的残余信号泄漏。详情请阅读更新后的论文。

(2024-3-18) 我们已更新论文。权重和数据集现已在 Huggingface 上可用。

(2024-1-16) 你可能也想查看我们的新更新 SeeSR 和 Phantom。

(2023-10-20) 通过 --added_noise_level 添加额外噪声级别，SR 结果在"极度细节"和"过度平滑"之间达到了很好的平衡。非常有趣！你可以自由控制 SR 的细节级别。

(2023-10-18) 通过用输入 LR 图像初始化潜在变量，完全解决了问题。有趣的是，SR 结果也变得更加稳定。

(2023-10-11) Colab 演示现已可用。感谢 Masahide Okada。

(2023-10-09) 添加训练数据集。

(2023-09-28) 添加分块潜在变量，允许放大超高分辨率图像。放大大图像时请仔细设置 latent_tiled_size 和 --decoder_tiled_size。

(2023-09-12) 添加 Gradio 演示。

(2023-09-11) 上传预训练模型。

(2023-09-07) 上传源代码。

我们的模型可以完成各种任务。希望你能喜欢。

真实图像超分辨率

老照片修复

个性化风格化

着色

使用方法

克隆此仓库：

git clone https://github.com/yangxy/PASD.git
cd PASD

从 huggingface 下载 SD1.5 模型并将它们放入 checkpoints/stable-diffusion-v1-5。
准备训练数据集。请仔细检查 dataloader/localdataset.py 和 dataloader/webdataset.py 并正确设置路径。我们强烈推荐使用 dataloader/webdataset.py。
下载我们的训练数据集。DIV2K_train_HR | DIV8K-0 | DIV8K-1 | DIV8K-2 | DIV8K-3 | DIV8K-4 | DIV8K-5 | FFHQ_5K | Flickr2K_HR-0 | Flickr2K_HR-1 | Flickr2K_HR-2 | OST_animal | OST_building | OST_grass | OST_mountain | OST_plant | OST_sky | OST_water | Unsplash2K
训练PASD。

bash ./train_pasd.sh

如果你想训练pasd_light，请使用--use_pasd_light。

测试PASD。

下载我们预训练的模型 pasd | pasd_rrdb | pasd_light | pasd_light_rrdb，并将它们放入runs/目录。

python test_pasd.py # --use_pasd_light --use_personalized_model

请仔细阅读test_pasd.py中的参数。我们采用了multidiffusion-upscaler-for-automatic1111提出的tiled vae方法来节省GPU内存。

请尝试使用--use_personalized_model进行个性化风格化、老照片修复和真实世界超分辨率。设置--conditioning_scale以获得不同的风格化强度。

我们使用的个性化模型包括majicMIX realistic(用于超分辨率和修复)、ToonYou(用于风格化)和modern disney style(仅unet，用于风格化)。你可以从社区下载更多模型并将它们放入checkpoints/personalized_models目录。

如果默认设置无法得到好的结果，请尝试不同的--pasd_model_path、--seed、--prompt、--upscale或--high_level_info以获得更好的性能。

Gradio演示

python gradio_pasd.py

主要思想

引用

如果我们的工作对你的研究有帮助，请考虑引用：

@inproceedings{yang2023pasd,
    title={Pixel-Aware Stable Diffusion for Realistic Image Super-Resolution and Personalized Stylization},
    author={Tao Yang, Rongyuan Wu, Peiran Ren, Xuansong Xie, and Lei Zhang},
    booktitle={The European Conference on Computer Vision (ECCV) 2024},
    year={2023}
}