在人工智能快速发展的今天,大规模文本到图像扩散模型的出现为内容创作带来了革命性的变化。这些模型能够根据文本描述生成高度逼真和富有创意的图像,展现出强大的合成能力。然而,随之而来的是一系列棘手的问题:模型在训练过程中可能无意中记忆了大量网络数据,其中包含受版权保护的材料、授权图像,甚至是个人照片。更令人担忧的是,这些模型还可能复制现存艺术家的独特风格。那么,我们如何在不从头重新训练模型的情况下,有效地移除这些受保护的概念或图像呢?
为了解决这一挑战,来自卡内基梅隆大学、清华大学和Adobe的研究团队提出了一种名为"Concept Ablation"的创新方法。这项研究发表在ICCV 2023会议上,标题为《Ablating Concepts in Text-to-Image Diffusion Models》。
Concept Ablation的核心思想是在预训练模型中"消除"特定概念,也就是阻止模型生成某些目标概念。具体来说,该算法通过学习将给定目标样式、实例或文本提示的图像分布与某个锚定概念的分布相匹配来实现这一目标。例如,将"Grumpy Cat"(一种网络爆红的猫咪)的分布匹配到普通"猫"的分布。
如上图所示,给定需要消除的目标概念"Grumpy Cat"和锚定概念"Cat",研究团队对模型进行微调,使其在给定目标概念提示"A cute little Grumpy Cat"时的预测结果与给定"A cute little cat"时相同。通过这种方式,模型就能够在保持整体性能的同时,有效地"忘记"