DEADiff：一种具有解耦表示的高效风格化扩散模型（CVPR 2024）

齐天浩*、方善成、吴彦泽✝、谢洪涛✉、刘嘉伟、<br>陈朗、何倩、张勇东 <br><br> (*在字节跳动实习期间完成的工作，✝项目负责人，✉通讯作者)

来自中国科学技术大学和字节跳动。

</div>

🔆 介绍

简要概述： 我们提出了DEADiff，这是一种通用方法，可以方便地合成具有给定参考图像风格并符合文本提示的新图像。 <br>

⭐⭐ 风格化文本到图像生成。

<div align="center"> <img src=docs/showcase_img.png> <p>风格化文本到图像结果。分辨率：512 x 512。（已压缩）</p> </div>

📝 更新日志

[2024.4.3]: 🔥🔥 发布推理代码和预训练检查点。
[2024.3.5]: 🔥🔥 发布项目页面。

⏳ 待办事项

发布推理代码。
发布训练数据。

⚙️ 环境配置

conda create -n deadiff python=3.9.2
conda activate deadiff
conda install pytorch==2.0.0 torchvision==0.15.0 torchaudio==2.0.0 pytorch-cuda=11.8 -c pytorch -c nvidia
pip install git+https://github.com/salesforce/LAVIS.git@20230801-blip-diffusion-edit
pip install -r requirements.txt
pip install -e .

💫 推理

从Hugging Face下载预训练模型并将其放在./pretrained/目录下。
在终端中运行以下命令。

python3 scripts/app.py

Gradio应用程序允许您从参考图像转移风格。尝试一下以获取更多详细信息。

提示："一个卷发男孩"

提示："一个机器人"

提示："一辆摩托车"

📢 免责声明

我们开发此代码库用于研究目的，因此它只能用于个人/研究/非商业用途。

✈️ 引用

@article{qi2024deadiff,
  title={DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations},
  author={Qi, Tianhao and Fang, Shancheng and Wu, Yanze and Xie, Hongtao and Liu, Jiawei and Chen, Lang and He, Qian and Zhang, Yongdong},
  journal={arXiv preprint arXiv:2403.06951},
  year={2024}
}