CFLD

基于粗到细潜在扩散的姿态引导人像图像合成 <br> 陆彦佐, 张曼琳, 马安迪, 谢晓华, 赖剑煌 <br> 2024年6月17-21日，美国西雅图，IEEE / CVF 计算机视觉与模式识别会议（CVPR）

定性结果

简要概述

如果您想引用并与我们的方法进行比较，请从Google Drive下载生成的图像。（包括DeepFashion数据集上的256x176和512x352分辨率，以及Market-1501数据集上的128x64分辨率）

流程图

新闻🔥🔥🔥

2024/02/27 我们的论文"基于粗到细潜在扩散的姿态引导人像图像合成"被CVPR 2024接收。
2024/02/28 我们发布了代码并上传了arXiv预印本。
2024/03/09 DeepFashion数据集上的模型检查点已在Google Drive上发布。
2024/03/09 我们注意到不同开源代码使用的文件命名可能会非常混乱。为了便于未来的工作，我们整理了论文中用于定性比较的几种方法生成的图像。它们统一调整为256x176或512x352分辨率，以png格式存储，并使用相同的命名格式。尽情享用！🤗
2024/03/20 我们上传了用于推理/推理的Jupyter笔记本。您可以根据需要进行修改，例如用自定义图像替换条件图像，并从测试数据集中随机采样目标姿态。
2024/04/05 我们的论文被评为CVPR 2024亮点论文！！！
2024/04/10 最终版本现已在arXiv上发布。补充材料包含更多讨论和结果已添加。

准备工作

安装环境

conda env create -f environment.yaml

下载DeepFashion数据集

从DeepFashion的店内服装检索基准下载Img/img_highres.zip，解压到./fashion目录下。（需要密码，请联系DeepFashion的作者（不是我们！！！）获取许可。）
从DPTN下载训练/测试对和关键点，放在./fashion目录下。

确保./fashion目录的树形结构如下：

fashion
├── fashion-resize-annotation-test.csv
├── fashion-resize-annotation-train.csv
├── fashion-resize-pairs-test.csv
├── fashion-resize-pairs-train.csv
├── MEN
├── test.lst
├── train.lst
└── WOMEN

使用Python运行generate_fashion_datasets.py。

下载预训练模型

按需下载以下预训练模型，放在./pretrained_models目录下：

模型	官方仓库	公开可用
U-Net	runwayml/stable-diffusion-v1-5	diffusion_pytorch_model.safetensors
VAE	runwayml/stable-diffusion-v1-5	diffusion_pytorch_model.safetensors
Swin-B	microsoft/Swin-Transformer	swin_base_patch4_window12_384_22kto1k.pth
CLIP (仅用于消融实验)	openai/clip-vit-large-patch14	model.satetensors

确保./pretrained_models目录的树形结构如下：

pretrained_models
├── clip
│   ├── config.json
│   └── model.safetensors
├── scheduler
│   └── scheduler_config.json
├── swin
│   └── swin_base_patch4_window12_384_22kto1k.pth
├── unet
│   ├── config.json
│   └── diffusion_pytorch_model.safetensors
└── vae
    ├── config.json
    └── diffusion_pytorch_model.safetensors

训练

对于多GPU，默认运行以下命令：

bash scripts/multi_gpu/pose_transfer_train.sh 0,1,2,3,4,5,6,7

对于单GPU，默认运行以下命令：

bash scripts/single_gpu/pose_transfer_train.sh 0

对于消融研究，例如运行以下命令指定配置：

bash scripts/multi_gpu/pose_transfer_train.sh 0,1,2,3,4,5,6,7 --config_file configs/ablation_study/no_app.yaml

推理

对于多GPU，例如运行以下命令指定检查点：

bash scripts/multi_gpu/pose_transfer_test.sh 0,1,2,3,4,5,6,7 MODEL.PRETRAINED_PATH checkpoints

对于单GPU，例如运行以下命令指定检查点：

bash scripts/single_gpu/pose_transfer_test.sh 0 MODEL.PRETRAINED_PATH checkpoints

引用

@inproceedings{lu2024coarse,
  title={Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis},
  author={Lu, Yanzuo and Zhang, Manlin and Ma, Andy J and Xie, Xiaohua and Lai, Jian-Huang},
  booktitle={CVPR},
  year={2024}
}