视觉变位词 | 因子化扩散

注意: 此仓库包含视觉变位词和因子化扩散两个项目的代码。

有关因子化扩散的信息，请参阅此自述文件。

视觉变位词：用扩散模型生成多视角光学幻觉

CVPR 2024 (口头报告)

Daniel Geng、Aaron Park、Andrew Owens

[Arxiv] [网站] [Colab (免费版)] [Colab (专业版)]

(免费版)

(Colab专业版)

此仓库包含生成视觉变位词和其他多视角光学幻觉的代码。这些图像在经过变换（如旋转、颜色反转或拼图重排）后会改变外观或身份。详情请阅读我们的论文或访问我们的网站。

Colab演示

我们提供两个Colab演示。一个由Tamizh N精心编写，内存效率高，可以在Colab免费版资源上运行（代价是稍微不太方便）：

(免费版)

对于拥有或愿意订阅Colab专业版的用户，我们还提供以下笔记本，它需要高内存和V100运行环境，但使用起来稍微更方便：

(Colab专业版)

安装

Conda环境

通过运行以下命令创建conda环境（仅适用于Linux）：

conda env create -f environment.yml

然后通过运行以下命令激活环境：

conda activate visual_anagrams

DeepFloyd

我们的方法使用DeepFloyd IF，这是一个基于像素的扩散模型。我们不使用Stable Diffusion，因为潜在扩散模型会在幻觉中造成伪影（详见我们的论文）。

在使用DeepFloyd IF之前，您必须接受其使用条件。操作如下：

确保拥有一个Hugging Face账户并已登录。
在DeepFloyd/IF-I-XL-v1.0模型卡片上接受许可。接受第一阶段模型卡片的许可将自动接受其他IF模型的许可。
通过运行以下命令在本地登录：

python huggingface_login.py

并在提示时输入您的Hugging Face Hub访问令牌。对于"Add token as git credential? (Y/n)"问题，回答方式不重要。

使用方法

要生成90度旋转幻觉，我们可以使用以下命令。这将创建10个样本，分别在3种不同的尺寸：64×64、256×256和1024×1024。有关生成更多类型多视角幻觉的命令，请参见下文。

python generate.py --name rotate_cw.village.horse --prompts "a snowy mountain village" "a horse" --style "an oil painting of" --views identity rotate_cw --num_samples 10 --num_inference_steps 30 --guidance_scale 10.0 --generate_1024

以下是有用参数的说明：

--name：幻觉的名称。将样本保存到./results/{name}。
--prompts：幻觉提示词列表。
--style：可选的样式提示，预置于每个提示词之前。例如，可以是"an oil painting of"。可以节省一些书写。
--views：要使用的视图列表。必须与提示词数量匹配。有关视图列表，请参见visual_anagrams/views/__init__.py中的get_views函数。
--num_samples：要采样的幻觉数量。
--num_inference_steps：要执行的扩散去噪步骤数。
--guidance_scale：无分类器引导的引导比例。
--generate_1024：使用DeepFloyd第三阶段（实际上就是Stable Diffusion 4x Upscaler）上采样至1024x1024图像。

上采样

我们使用DeepFloyd IF的前两个阶段生成64×64和256×256的多视角幻觉。DeepFloyd进一步使用Stable Diffusion x4 Upscaler从256×256上采样到1024×1024。然而，该模型使用潜在变量，因此我们没有或无法为这个阶段实现多视角去噪。所以我们只能进行简单的上采样，仅使用第一个提示词。需要注意的是，这可能会影响变换后图像的质量，但实践中我们发现效果相当不错。

动画制作

要为上述两视图幻觉制作动画，我们可以运行以下命令。此命令应适用于我们采样的所有三种尺寸（64×64、256×256和1024×1024），尽管说实话64×64非常小，看起来效果很差。

python animate.py --im_path results/rotate_cw.village.horse/0000/sample_1024.png --metadata_path results/rotate_cw.village.horse/metadata.pkl

以下是有用参数的说明：

im_path：您的幻觉图像的路径。这适用于三种图像尺寸（64、256或1024）中的任何一种。
metadata_path：关于用于生成幻觉的视图和提示的元数据路径，由generate.py保存。覆盖以下选项。
view：视图的名称。有关视图列表，请参见visual_anagrams/views/__init__.py中的get_views函数。
prompt_1：原始图像的提示。您可以在此处添加\n字符来换行。
prompt_2：与prompt_1相同，但用于变换后的图像。

选择提示的艺术

为幻觉选择提示可能相当棘手且不直观。以下是一些建议：

直觉和推理的作用往往比您预期的要小。您认为会效果很好的提示经常表现不佳，反之亦然。因此，探索是关键。
像"一张...的照片"这样的风格往往更难，因为现实主义的约束相当困难（但这并不意味着它们不能奏效！）。
相反，像"一幅...的油画"这样的风格似乎表现更好，因为在如何描绘和解释上有更多自由。
同样，允许高度灵活描绘的主题往往是不错的选择。例如，像"室内植物"或"葡萄酒和奶酪"或"厨房"这样的提示。
但要注意主题仍然容易辨认。当幻觉能立即被理解时，效果会好得多。
面孔经常成为很好的"隐藏"主题。这可能是因为人类视觉系统特别擅长识别面孔。例如，"一个老人"或"玛丽莲·梦露"往往是很好的主题。
也许有点显而易见，但3视图和4视图的幻觉要难得多。

更多示例

翻转幻觉：

python generate.py --name flip.campfire.man --prompts "一幅篝火旁的人们的油画" "一幅老人的油画" --views identity flip --num_samples 10 --num_inference_steps 30 --guidance_scale 10.0 --generate_1024

拼图幻觉：

python generate.py --name jigsaw.houseplants.marilyn --prompts "室内植物" "玛丽莲·梦露" --style "一幅...的油画" --views identity jigsaw --num_samples 10 --num_inference_steps 30 --guidance_scale 10.0 --generate_1024

内圆幻觉：

python generate.py --name inner.einstein.marilyn --prompts "阿尔伯特·爱因斯坦" "玛丽莲·梦露" --style "一幅...的油画" --views identity inner_circle --num_samples 10 --num_inference_steps 30 --guidance_scale 10.0 --generate_1024

颜色反转幻觉：

python generate.py --name negate.landscape.houseplants --prompts "一片风景" "室内植物" --style "一幅...的石版画" --views identity negate --num_samples 10 --num_inference_steps 30 --guidance_scale 10.0 --generate_1024

图块置换幻觉：

python generate.py --name patch.lemur.kangaroo --prompts "一只狐猴" "一只袋鼠" --style "一幅...的铅笔素描" --views identity patch_permute --num_samples 10 --num_inference_steps 30 --guidance_scale 10.0 --generate_1024

像素置换幻觉：

python generate.py --name pixel.duck.rabbit --prompts "一只鸭子" "一只兔子" --style "一幅...的马赛克" --views identity pixel_permute --num_samples 10 --num_inference_steps 30 --guidance_scale 10.0 --generate_1024

倾斜幻觉：

python generate.py --name skew.tudor.skull --prompts "一幅都铎时期的肖像" "一个头骨" --style "一幅...的油画" --views identity skew --num_samples 10 --num_inference_steps 30 --guidance_scale 10.0 --generate_1024

三视图幻觉：

python generate.py --name threeview.waterfall.teddy.rabbit --prompts "一个瀑布" "一只泰迪熊" "一只兔子" --style "一幅...的油画" --views identity rotate_cw rotate_ccw --num_samples 10 --num_inference_steps 30 --guidance_scale 10.0 --generate_1024

"方形铰链"幻觉：

python generate.py --name hinge.duck.rabbit --prompts "一只鸭子" "一只兔子" --style "一幅...的水彩画" --views identity square_hinge --num_samples 10 --num_inference_steps 30 --guidance_scale 10.0 --generate_1024