InstanceDiffusion: 精确控制图像生成的实例级技术

InstanceDiffusion:实现图像生成的精确实例级控制

近年来,文本到图像的生成技术取得了巨大进展,但在对图像中个别实例的精确控制方面仍存在挑战。来自UC Berkeley和Meta的研究人员最近提出了一种名为InstanceDiffusion的创新方法,为文本到图像的扩散模型增加了精确的实例级控制能力,大大提升了生成图像的可控性和质量。

InstanceDiffusion的核心创新

InstanceDiffusion的主要创新点在于:

支持自由形式的语言条件:除了全局文本提示外,还可以为每个实例指定独立的文本描述。
灵活的实例位置指定方式:支持使用简单的单点、涂鸦、边界框,或复杂的实例分割掩码来指定实例位置,甚至可以组合使用这些方式。
UniFusion模块:将各种形式的实例级条件投影到相同的特征空间,并将实例级布局和描述注入视觉token中。
ScaleU模块:重新校准UNet的主要特征和跳跃连接特征中的低频分量,增强模型对布局条件的精确遵循能力。
多实例采样器:在推理阶段减少多个实例条件之间的信息泄露和混淆。

这些创新使InstanceDiffusion在保持高质量图像生成的同时,实现了对图像中各个实例的精确控制。

InstanceDiffusion示例图

InstanceDiffusion的性能优势

在COCO数据集上进行的零样本评估中,InstanceDiffusion显著超越了之前的最先进模型:

对于边界框输入,AP50box提高了20.4%
对于掩码输入,IoU提高了25.4%

这些结果充分证明了InstanceDiffusion在实例级控制方面的卓越性能。

InstanceDiffusion的多样化应用

InstanceDiffusion支持多种有趣的应用场景:

精细的图像组合:从整体实例到局部细节,都可以精确控制。
隐式姿态调整:通过改变部件或子部件的位置,可以间接调整整个物体的姿态。
迭代式图像生成:在保持场景整体一致的前提下,可以逐步添加新实例、替换实例、移动实例位置或调整实例大小。
属性绑定:可以精确控制实例的颜色、纹理等属性。

这些应用大大拓展了文本到图像生成的可能性,为创意设计、内容创作等领域带来了新的工具和灵感。

InstanceDiffusion的技术实现

InstanceDiffusion基于Stable Diffusion 1.5进行了改进,主要包括以下几个关键组件:

UniFusion模块:用于处理实例级条件。
ScaleU模块:提高图像保真度。
多实例采样器:优化多实例生成效果。

研究团队提供了详细的代码实现和使用说明,方便其他研究者复现结果并进行进一步的探索。

InstanceDiffusion的推理演示

要运行InstanceDiffusion演示,需要下载预训练模型并按以下步骤操作:

python inference.py \  
  --num_images 8 \  
  --output OUTPUT/ \  
  --input_json demos/demo_cat_dog_robin.json \  
  --ckpt pretrained/instancediffusion_sd15.pth \  
  --test_config configs/test_box.yaml \  
  --guidance_scale 7.5 \  
  --alpha 0.8 \  
  --seed 0 \  
  --mis 0.36 \  
  --cascade_strength 0.4 \