多参考框架实现可控人像生成
Parts2Whole提出新型框架,利用多个参考图像生成定制人像。该框架包含语义感知外观编码器和多图像条件生成的共享自注意力机制,能精确选择人体部位实现高度可控生成。项目开源全套代码、模型和数据集,为人像生成研究提供完整解决方案。
[Arxiv 2024] 从部分到整体:可控人像生成的统一参考框架
[2024-06-21] 发布训练代码。参见训练。 <br/> [2024-05-26] 数据集已在此处发布。参见数据集。 <br/> [2024-05-06] 🔥🔥🔥 代码已发布。尽情享受人体部件组合吧!
摘要:我们提出了Parts2Whole,这是一个新颖的框架,旨在从多个参考图像生成定制人像,包括姿势图像和人类外观的各个方面。首先,我们开发了一个语义感知外观编码器,以保留不同人体部位的细节,该编码器根据文本标签将每个图像处理为一系列多尺度特征图,而不是一个图像标记,从而保留了图像维度。其次,我们的框架通过在扩散过程中在参考和目标特征之间操作的共享自注意力机制支持多图像条件生成。我们通过结合参考人体图像的掩码信息来增强原始注意力机制,允许精确选择任何部位。
克隆我们的仓库,并安装requirements.txt
中的包。我们在80G A800 GPU上使用CUDA 11.8和PyTorch 2.0.1测试了我们的模型。但在较小的GPU上进行推理也是可能的。
conda create -n parts2whole conda activate parts2whole pip install -r requirements.txt
在<a href="https://huggingface.co/huanngzh/Parts2Whole" target="_blank">此处</a>下载检查点到pretrained_weights/parts2whole
目录。我们还提供了一个简单的下载脚本,使用:
python download_weights.py
查看inference.py
。根据需要修改检查点路径和输入,然后运行命令:
python inference.py
您可能需要在inference.py
脚本中修改以下代码:
### 定义配置 ### device = "cuda" torch_dtype = torch.float16 seed = 42 model_dir = "pretrained_weights/parts2whole" # 本地机器上的检查点路径 use_decoupled_cross_attn = True decoupled_cross_attn_path = "pretrained_weights/parts2whole/decoupled_attn.pth" # 包含在model_dir中
### 定义输入数据 ### height, width = 768, 512 prompt = "这个人穿着短袖衬衫。" # 输入提示 input_dict = { "appearance": { "face": "testset/face_man1.jpg", "whole body clothes": "testset/clothes_man1.jpg", }, "mask": { "face": "testset/face_man1_mask.jpg", "whole body clothes": "testset/clothes_man1_mask.jpg", }, "structure": {"densepose": "testset/densepose_man1.jpg"}, }
⭐️⭐️⭐️ 值得注意的是,input_dict
应包含键appearance
、mask
和structure
。前两个表示指定多个参考图像中部分的外观,structure表示姿势,如densepose。
⭐️⭐️⭐️ 这三个部分中的键也有解释。appearance
和mask
中的键应该相同。选项包括"upper body clothes"、"lower body clothes"、"whole body clothes"、"hair or headwear"、"face"、"shoes"。structure
的键应为"densepose"。(openpose模型尚未发布。)
🔨🔨🔨 为了方便获取每个参考图像的掩码,我们还提供了相应的工具,并在工具中解释了如何使用它们。首先,您可以使用Real-ESRGAN提高参考图像的分辨率,并使用segformer获取人体各个部位的掩码。
我们的数据集已在此处发布。我们在download_dataset.py
中提供了下载和解压脚本,请使用以下命令:
python download_dataset.py
它将在data/DeepFashion-MultiModal-Parts2Whole
文件夹中准备数据集,这样您就 可以运行我们的配置来训练模型或运行我们的数据集文件parts2whole/data/ref_trg.py
来检查我们的数据集。
确保数据集按如下方式组织:
DeepFashion-MultiModal-Parts2Whole # 结构信号 |-- densepose |-- openpose # 外观条件 |-- face |-- hair_headwear |-- lower_body_clothes |-- upper_body_clothes |-- whole_body_clothes |-- shoes # 目标图像 |-- images # 说明文件 |-- train.jsonl `-- test.jsonl
这个人像数据集包含约41,500对参考-目标对。该数据集中的每对都包括多个参考图像,包括姿势图、人类外观的各个方面(如头发、脸部、衣服、鞋子),以及一张featuring相同个体(ID)的目标图像,还有文本说明。有关数据集的详细信息,请参阅我们的数据集仓库。
我们的数据集是 从DeepFashion-Multimodal数据集后处理而来的。
如果在单个设备上训练我们的parts2whole,请使用以下命令:
python train.py --config configs/train-sd15.yaml
如果在 DDP 环境中训练(假设有 8 个设备),请运行以下命令:
accelerate launch \ --mixed_precision=fp16 \ --num_processes=$((8*$WORLD_SIZE)) \ # 8 是设备数量 --num_machines=$WORLD_SIZE \ --multi_gpu \ --machine_rank=$RANK \ train.py --config configs/train-sd15.yaml
在我们的配置文件中,每个设备的批量大小设置为 8(这是针对 80G 内存设备的推荐值)。如果你在内存较小的设备上训练,需要减小这个值。
进行评估之前,请先安装以下额外的包:
pip install git+https://github.com/openai/CLIP.git # 用于 clip pip install dreamsim # 用于 dreamsim pip install lpips # 用于 lpips
我们在 scripts/evals
文件夹中提供了易于使用的评估脚本。这些脚本接收统一格式的数据,以两个图像列表作为输入。根据需要修改加载图像的代码。更多细节请查看我们的脚本。
要使用 Real-ESRGAN 来恢复图像,请先下载 RealESRGAN_x4plus.pth 到 ./pretrained_weights/Real-ESRGAN
目录。然后运行以下命令:
python -m scripts.real_esrgan -n RealESRGAN_x4plus -i /path/to/dir -o /path/to/dir --face_enhance
要使用 segformer 对人物图像进行分割并获取帽子、头发、面部、衣服等部分,请运行以下命令:
python scripts.segformer_b2_clothes.py --image-path /path/to/image --output-dir /path/to/dir
标签:0: "背景", 1: "帽子", 2: "头发", 3: "太阳镜", 4: "上衣", 5: "裙子", 6: "裤子", 7: "连衣裙", 8: "腰带", 9: "左鞋", 10: "右鞋", 11: "脸", 12: "左腿", 13: "右腿", 14: "左臂", 15: "右臂", 16: "包", 17: "围巾"
目前,训练数据的泛化性一般,女性数量相对较多,因此模型的泛化能力需要改进,比如风格化等方面。我们正在努力提高模型的鲁棒性和能力,同时也期待并欢迎社区的贡献和拉取请求。
我们感谢以下项目的开源:
diffusers magic-animate Moore-AnimateAnyone DeepFashion-MultiModal Real-ESRGAN
如果您觉得这个仓库有用,请考虑引用:
@misc{huang2024parts2whole,
title={From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation},
author={Huang, Zehuan and Fan, Hongxing and Wang, Lipeng and Sheng, Lu},
journal={arXiv preprint arXiv:2404.15267},
year={2024}
}
一键生成PPT和Word,让学习生活更轻松
讯飞智文是一个利用 AI 技术的项目,能够帮助用户生成 PPT 以及各类文档。无论是商业领域的市场分析报告、年度目标制定,还是学生群体的职业生涯规划、实习避坑指南,亦或是活动策划、旅游攻略等内容,它都能提供支持,帮助用户精准表达,轻松呈现各种信息。
深度推理能力全新升级,全面对标OpenAI o1
科大讯飞的星火大模型,支持语言理解、知识问答和文本创作等多功能,适用于多种文件和业务场景,提升办公和日常生活的效率。讯飞星火是一个提供丰富智能服务的平台,涵盖科技资讯、图像创作、写作辅助、编程解答、科研文献解读等功能,能为不同需求的用户提供便捷高效的帮助,助力用户轻松获取信息、解决问题,满足多样化使用场景。
一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型
Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI助力,做PPT更简单!
咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。
选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。
专业的AI公文写作平台,公文写作神器
AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。
OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。
openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。
高分辨率纹理 3D 资产生成
Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。
一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。
3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号