文本引导的无形状约束对象添加技术
Diffree是一个基于扩散模型的文本引导对象添加系统。该项目通过OABench数据集训练,能够仅依靠文本指令准确预测新对象位置并添加到图像中,同时保持背景一致性。Diffree在对象添加成功率、背景协调性和空间布局方面表现优异,为图像编辑和内容创作提供了新的可能。
论文"Diffree: 基于扩散模型的文本引导无形状约束物体修复"的官方PyTorch实现
<p align="center"> <a href="https://opengvlab.github.io/Diffree/"><u>[🌐 项目主页]</u></a> <a href="https://huggingface.co/datasets/LiruiZhao/OABench"><u>[🗞️ 数据集]</u></a> <a href="https://drive.google.com/file/d/1AdIPA5TK5LB1tnqqZuZ9GsJ6Zzqo2ua6/view"><u>[🎥 视频]</u></a> <a href="https://arxiv.org/pdf/2407.16982"><u>[📜 论文]</u></a> <a href="https://huggingface.co/spaces/LiruiZhao/Diffree"><u>[🤗 Hugging Face 演示]</u></a> </p>本文解决了仅通过文本指导在图像中添加物体这一重要问题。这一任务具有挑战性,因为新添加的物体必须与图像的视觉上下文(如光照、纹理和空间位置)无缝集成。虽然现有的文本引导图像修复方法可以添加物体,但它们要么无法保持背景一致性,要么需要繁琐的人工干预来指定边界框或用户涂鸦的掩码。为了解决这一挑战,我们提出了Diffree,一个仅需文本控制就能实现文本引导物体添加的文本到图像(T2I)模型。为此,我们通过先进的图像修复技术移除物体,精心制作了OABench合成数据集。OABench包含74K个真实世界的元组,每个元组包含原始图像、移除物体后的修复图像、物体掩码和物体描述。Diffree在OABench上使用Stable Diffusion模型进行训练,并添加了一个额外的掩码预测模块,独特地预测新物体的位置,仅通过文本指导实现物体添加。大量实验表明,Diffree在添加新物体方面表现出色,具有高成功率,同时保持背景一致性、空间适当性以及物体相关性和质量。
</details>
我们欢迎任何建议和讨论,请随时通过liruizhao@stu.xmu.edu.cn与我们联系。
git clone https://github.com/OpenGVLab/Diffree.git
cd Diffree
conda create -n diffree python=3.8.5
conda activate diffree
pip install -r requirements.txt
pip install huggingface_hub
huggingface-cli download LiruiZhao/Diffree --local-dir ./checkpoints
python app.py
具体来说,--resolution
定义了调整大小后的输入图像和输出图像的最大尺寸。对于我们的<a href="https://huggingface.co/spaces/LiruiZhao/Diffree">Hugging Face演示</a>,我们将--resolution
设置为512
,以提高用户体验和生成更高分辨率的结果。而在Diffree的训练过程中,--resolution
设置为256
。因此,降低--resolution
可能会改善结果(例如,可以尝试将320
作为一个潜在值)。
你可以在这里下载OABench,用于训练Diffree。
huggingface-cli download --repo-type dataset LiruiZhao/OABench --local-dir ./dataset --local-dir-use-symlinks False
cd dataset
ls *.tar.gz | xargs -n1 tar xvf
数据结构应该如下所示:
|-- dataset
|-- original_images
|-- 58134.jpg
|-- 235791.jpg
|-- ...
|-- inpainted_images
|-- 58134
|-- 634757.jpg
|-- 634761.jpg
|-- ...
|-- 235791
|-- ...
|-- mask_images
|-- 58134
|-- 634757.png
|-- 634761.png
|-- ...
|-- 235791
|-- ...
|-- annotations.json
在inpainted_images
和mask_images
目录中,顶层文件夹对应原始图像,每个文件夹的内容是这些图像的修复图像和掩码。
Diffree通过从初始StableDiffusion检查点微调来训练。
checkpoints
目录。对于我们的训练模型,我们使用v1.5检查点作为起点。你也可以使用以下命令:curl -L https://huggingface.co/runwayml/stable-diffusion-v1-5/resolve/main/v1-5-pruned-emaonly.ckpt -o checkpoints/v1-5-pruned-emaonly.ckpt
python main.py --name diffree --base config/train.yaml --train --gpus 0,1,2,3
所有配置都存储在YAML文件中。如果你需要使用自定义配置设置,可以修改--base
以指向你的自定义配置文件。
如果你觉得这项工作有用,请考虑引用:
@article{zhao2024diffree,
title={Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model},
author={Zhao, Lirui and Yang, Tianshuo and Shao, Wenqi and Zhang, Yuxin and Qiao, Yu and Luo, Ping and Zhang, Kaipeng and Ji, Rongrong},
journal={arXiv preprint arXiv:2407.16982},
year={2024}
}
一种基于大语言模型的高效单流解耦语音令牌文本到语音合成模型
Spark-TTS 是一个基于 PyTorch 的开源文本到语音合成项目,由多个知名机构联合参与。该项目提供了高效的 LLM(大语言模型)驱动的语音合成方案,支持语音克隆和语音创建功能,可通过命令行界面(CLI)和 Web UI 两种方式使用。用户可以根据需求调整语音的性 别、音高、速度等参数,生成高质量的语音。该项目适用于多种场景,如有声读物制作、智能语音助手开发等。
字节跳动发布的AI编程神器IDE
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。
AI助力,做PPT更简单!
咔片是一款轻量化在线演示设计工具,借助 AI 技术,实现从内容生成到智能设计的一站式 PPT 制作服务。支持多种文档格式导入生成 PPT,提供海量模板、智能美化、素材替换等功能,适用于销售、教师、学生等各类人群,能高效制作出高品质 PPT,满足不同场景演示需求。
选题、配图、成文,一站式创作,让内容运营更高效
讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。
专业的AI公文写作平台,公文写作神器
AI 材料星,专业的 AI 公文写作辅助平台,为体制内工作人员提供高效的公文写作解决方案。拥有海量公文文库、9 大核心 AI 功能,支持 30 + 文稿类型生成,助力快速完成领导讲话、工作总结、述职报告等材料,提升办公效率,是体制打工人的得力写作神器。
OpenAI Agents SDK,助力开发者便捷使用 OpenAI 相关功能。
openai-agents-python 是 OpenAI 推出的一款强大 Python SDK,它为开发者提供了与 OpenAI 模型交互的高效工具,支持工具调用、结果处理、追踪等功能,涵盖多种应用场景,如研究助手、财务研究等,能显著提升开发效率,让开发者更轻松地利用 OpenAI 的技术优势。
高分辨率纹理 3D 资产生成
Hunyuan3D-2 是腾讯开发的用于 3D 资产生成的强大工具,支持从文本描述、单张图片或多视角图片生成 3D 模型,具备快速形状生成能力,可生成带纹理的高质量 3D 模型,适用于多个领域,为 3D 创作提供了高效解决方案。
一个具备存储、管理和客户端操作等多种功能的分布式文件系统相关项目。
3FS 是一个功能强大的分布式文件系统项目,涵盖了存储引擎、元数据管理、客户端工具等多个模块。它支持多种文件操作,如创建文件和目录、设置布局等,同时具备高效的事件 循环、节点选择和协程池管理等特性。适用于需要大规模数据存储和管理的场景,能够提高系统的性能和可靠性,是分布式存储领域的优质解决方案。
用于可扩展和多功能 3D 生成的结构化 3D 潜在表示
TRELLIS 是一个专注于 3D 生成的项目,它利用结构化 3D 潜在表示技术,实现了可扩展且多功能的 3D 生成。项目提供了多种 3D 生成的方法和工具,包括文本到 3D、图像到 3D 等,并且支持多种输出格式,如 3D 高斯、辐射场和网格等。通过 TRELLIS,用户可以根据文本描述或图像输入快速生成高质量的 3D 资产,适用于游戏开发、动画制作、虚拟现实等多个领域。
10 节课教你开启构建 AI 代理所需的一切知识
AI Agents for Beginners 是一个专为初学者打造的课程项目,提供 10 节课程,涵盖构建 AI 代理的必备知识,支持多种语言,包含规划设计、工具使用、多代理等丰富内容,助您快速入门 AI 代理领域。
最新AI工具、AI资讯
独家AI资源、AI项目落地
微信扫一扫关注公众号