在人工智能和计算机视觉领域,图像修复和编辑一直是一个备受关注的研究方向。近日,来自清华大学和上海人工智能实验室的研究团队提出了一种名为PowerPaint的高质量versatile图像修复模型,该模型在多项图像编辑任务上都取得了state-of-the-art的效果,为图像处理领域带来了新的突破。
PowerPaint的核心创新在于引入了"可学习的任务提示词"(learnable task prompts)概念。通过为不同的图像编辑任务设计特定的提示词,模型可以更有效地理解和执行各种图像修复目标。这种方法使得PowerPaint能够在单一模型中同时支持多种图像编辑功能,包括:
这种versatile的设计大大提高了模型的实用性和灵活性,使用户可以通过一个统一的接口完成多样化的图像编辑需求。
PowerPaint的主要功能包括:
文本引导的物体插入: 用户可以通过文本提示词,在指定区域插入符合描述的物体。这种功能允许用户轻松地向图像中添加新元素,提高了图像编辑的灵活性和创造性。
物体移除: PowerPaint能够智能地移除图像中的指定物体,并根据周围的上下文自动填充移除区域。这项功能在图像修复和清理方面表现出色。
形状引导的物体生成: 用户可以通过绘制特定形状的蒙版,控制生成物体的外形。PowerPaint还提供了一个"拟合程度"滑块,让用户可以精确控制生成物体与蒙版形状的匹配程度。
图像扩展(Outpainting): PowerPaint能够智能地扩展图像边界,生成与原始图像风格一致的新内容。用户可以通过调整水平和垂直扩展比例来控制扩展效果。
与ControlNet的兼容性: PowerPaint与ControlNet兼容,这意味着用户可以使用额外的控制图像来引导物体生成过程,进一步提高了生成结果的可控性和精确度。
保留跨注意力层: 在借鉴BrushNet的基础上,PowerPaint保留了被BrushNet删除的跨注意力层。这一决策对于处理任务提示词输入至关重要,使得模型能够更好地理解和执行不同的编辑任务。
灵活的拟合程度控制: 在形状引导的物体生成中,PowerPaint引入了拟合程度控制,使用户可以在0.5-0.95之间调整生成物体与蒙版形状的匹配程度。这种灵活性让用户能够在保持物体合理性的同时,实现更精确的形状控制。
为了更直观地展示PowerPaint的强大功能,让我们来看几个具体的应用示例: