
多参考框架实现可控人像生成
Parts2Whole提出新型框架,利用多个参考图像生成定制人像。该框架包含语义感知外观编码器和多图像条件生成的共享自注意力机制,能精确选择人体部位实现高度可控生成。项目开源全套代码、模型和数据集,为人像生成研究提供完整解决方案。
[Arxiv 2024] 从部分到整体:可控人像生成的统一参考框架
[2024-06-21] 发布训练代码。参见训练。 <br/> [2024-05-26] 数据集已在此处发布。参见数据集。 <br/> [2024-05-06] 🔥🔥🔥 代码已发布。尽情享受人体部件组合吧!

摘要:我们提出了Parts2Whole,这是一个新颖的框架,旨在从多个参考图像生成定制人像,包括姿势图像和人类外观的各个方面。首先,我们开发了一个语义感知外观编码器,以保留不同人体部位的细节,该编码器根据文本标签将每个图像处理为一系列多尺度特征图,而不是一个图像标记,从而保留了图像维度。其次,我们的框架通过在扩散过程中在参考和目标特征之间操作的共享自注意力机制支持多图像条件生成。我们通过结合参考人体图像的掩码信息来增强原始注意力机制,允许精确选择任何部位。

克隆我们的仓库,并安装requirements.txt中的包。我们在80G A800 GPU上使用CUDA 11.8和PyTorch 2.0.1测试了我们的模型。但在较小的GPU上进行推理也是可能的。
conda create -n parts2whole conda activate parts2whole pip install -r requirements.txt
在<a href="https://huggingface.co/huanngzh/Parts2Whole" target="_blank">此处</a>下载检查点到pretrained_weights/parts2whole目录。我们还提供了一个简单的下载脚本,使用:
python download_weights.py
查看inference.py。根据需要修改检查点路径和输入,然后运行命令:
python inference.py
您可能需要在inference.py脚本中修改以下代码:
### 定义配置 ### device = "cuda" torch_dtype = torch.float16 seed = 42 model_dir = "pretrained_weights/parts2whole" # 本地机器上的检查点路径 use_decoupled_cross_attn = True decoupled_cross_attn_path = "pretrained_weights/parts2whole/decoupled_attn.pth" # 包含在model_dir中
### 定义输入数据 ### height, width = 768, 512 prompt = "这个人穿着短袖衬衫。" # 输入提示 input_dict = { "appearance": { "face": "testset/face_man1.jpg", "whole body clothes": "testset/clothes_man1.jpg", }, "mask": { "face": "testset/face_man1_mask.jpg", "whole body clothes": "testset/clothes_man1_mask.jpg", }, "structure": {"densepose": "testset/densepose_man1.jpg"}, }
⭐️⭐️⭐️ 值得注意的是,input_dict应包含键appearance、mask和structure。前两个表示指定多个参考图像中部分的外观,structure表示姿势,如densepose。
⭐️⭐️⭐️ 这三个部分中的键也有解释。appearance和mask中的键应该相同。选项包括"upper body clothes"、"lower body clothes"、"whole body clothes"、"hair or headwear"、"face"、"shoes"。structure的键应为"densepose"。(openpose模型尚未发布。)
🔨🔨🔨 为了方便获取每个参考图像的掩码,我们还提供了相应的工具,并在工具中解释了如何使用它们。首先,您可以使用Real-ESRGAN提高参考图像的分辨率,并使用segformer获取人体各个部位的掩码。

我们的数据集已在此处发布。我们在download_dataset.py中提供了下载和解压脚本,请使用以下命令:
python download_dataset.py
它将在data/DeepFashion-MultiModal-Parts2Whole文件夹中准备数据集,这样您就 可以运行我们的配置来训练模型或运行我们的数据集文件parts2whole/data/ref_trg.py来检查我们的数据集。
确保数据集按如下方式组织:
DeepFashion-MultiModal-Parts2Whole # 结构信号 |-- densepose |-- openpose # 外观条件 |-- face |-- hair_headwear |-- lower_body_clothes |-- upper_body_clothes |-- whole_body_clothes |-- shoes # 目标图像 |-- images # 说明文件 |-- train.jsonl `-- test.jsonl
这个人像数据集包含约41,500对参考-目标对。该数据集中的每对都包括多个参考图像,包括姿势图、人类外观的各个方面(如头发、脸部、衣服、鞋子),以及一张featuring相同个体(ID)的目标图像,还有文本说明。有关数据集的详细信息,请参阅我们的数据集仓库。
我们的数据集是 从DeepFashion-Multimodal数据集后处理而来的。
如果在单个设备上训练我们的parts2whole,请使用以下命令:
python train.py --config configs/train-sd15.yaml
如果在 DDP 环境中训练(假设有 8 个设备),请运行以下命令:
accelerate launch \ --mixed_precision=fp16 \ --num_processes=$((8*$WORLD_SIZE)) \ # 8 是设备数量 --num_machines=$WORLD_SIZE \ --multi_gpu \ --machine_rank=$RANK \ train.py --config configs/train-sd15.yaml
在我们的配置文件中,每个设备的批量大小设置为 8(这是针对 80G 内存设备的推荐值)。如果你在内存较小的设备上训练,需要减小这个值。
进行评估之前,请先安装以下额外的包:
pip install git+https://github.com/openai/CLIP.git # 用于 clip pip install dreamsim # 用于 dreamsim pip install lpips # 用于 lpips
我们在 scripts/evals 文件夹中提供了易于使用的评估脚本。这些脚本接收统一格式的数据,以两个图像列表作为输入。根据需要修改加载图像的代码。更多细节请查看我们的脚本。
要使用 Real-ESRGAN 来恢复图像,请先下载 RealESRGAN_x4plus.pth 到 ./pretrained_weights/Real-ESRGAN 目录。然后运行以下命令:
python -m scripts.real_esrgan -n RealESRGAN_x4plus -i /path/to/dir -o /path/to/dir --face_enhance
要使用 segformer 对人物图像进行分割并获取帽子、头发、面部、衣服等部分,请运行以下命令:
python scripts.segformer_b2_clothes.py --image-path /path/to/image --output-dir /path/to/dir
标签:0: "背景", 1: "帽子", 2: "头发", 3: "太阳镜", 4: "上衣", 5: "裙子", 6: "裤子", 7: "连衣裙", 8: "腰带", 9: "左鞋", 10: "右鞋", 11: "脸", 12: "左腿", 13: "右腿", 14: "左臂", 15: "右臂", 16: "包", 17: "围巾"
目前,训练数据的泛化性一般,女性数量相对较多,因此模型的泛化能力需要改进,比如风格化等方面。我们正在努力提高模型的鲁棒性和能力,同时也期待并欢迎社区的贡献和拉取请求。
我们感谢以下项目的开源:
diffusers magic-animate Moore-AnimateAnyone DeepFashion-MultiModal Real-ESRGAN
如果您觉得这个仓库有用,请考虑引用:
@misc{huang2024parts2whole,
title={From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation},
author={Huang, Zehuan and Fan, Hongxing and Wang, Lipeng and Sheng, Lu},
journal={arXiv preprint arXiv:2404.15267},
year={2024}
}


免费创建高清无水印Sora视频
Vora是一个免费创建高清无水印Sora视频的AI工具


最适合小白的AI自动化工作流平台
无需编码,轻松生成可复用、可变现的AI自动化工作流

大模型驱动的Excel数据处理工具
基于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。


AI论文写作指导平台
AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。


AI一键生成PPT,就用博思AIPPT!
博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。


AI赋能电商视觉革命,一站式智能商拍平台
潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为 电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。


企业专属的AI法律顾问
iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。


稳定高效的流量提升解决方案,助力品牌曝光
稳定高效的流量提升解决方案,助力品牌曝光


最新版Sora2模型免费使用,一键生成无水印视频
最新版Sora2模型免费使用,一键生成无水印视频
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关注公众号