DynamiCrafter

DynamiCrafter: 利用视频扩散先验为开放域图像制作动画

邢金博、夏梦涵*、张勇、陈浩鑫、余望波、<br>刘涵源、王鑫涛、黄田津*、单瀛 <br><br> 来自香港中文大学和腾讯人工智能实验室。

<strong>在2024年欧洲计算机视觉会议(ECCV)口头报告</strong>

</div>

🔆 简介

🔥🔥 训练/微调代码现已可用！

🔥 我们的1024x576版本在VBench的图像到视频基准列表中排名第一！<br> 🔥 生成式帧插值/循环视频生成模型权重(320x512)已发布！<br> 🔥 DynamiCrafter推出新更新！更好的动态效果、更高的分辨率和更强的一致性！<br> 🤗 DynamiCrafter可以利用预训练的视频扩散先验，基于<strong>文本提示</strong>为开放域静态图像制作动画。请查看我们的项目页面和论文了解更多信息。<br>

👀 想与Stable Video Diffusion和PikaLabs进行比较？点击下方图片。

1.1. 展示案例 (576x1024)

1.2. 展示案例 (320x512)

1.3. 展示案例 (256x256)

<table class="center"> <tr> <td colspan="2">"熊快乐地弹吉他，下雪"</td> <td colspan="2">"男孩在街上走路"</td> </tr> <tr> <td> <img src=assets/showcase/guitar0.jpeg_00.png width="170"> </td> <td> <img src=assets/showcase/guitar0.gif width="170"> </td> <td> <img src=assets/showcase/walk0.png_00.png width="170"> </td> <td> <img src=assets/showcase/walk0.gif width="170"> </td> </tr> </table> ### 2. 应用

2.1 叙事视频生成 (更多细节请参见项目页面)

2.2 生成式帧插值

<table class="center"> <tr style="font-weight: bolder;text-align:center;"> <td>输入起始帧</td> <td>输入结束帧</td> <td>生成的视频</td> </tr> <tr> <td> <img src=assets/application/gkxX0kb8mE8_input_start.png width="250"> </td> <td> <img src=assets/application/gkxX0kb8mE8_input_end.png width="250"> </td> <td> <img src=assets/application/gkxX0kb8mE8.gif width="250"> </td> </tr> <tr> <td> <img src=assets/application/smile_start.png width="250"> </td> <td> <img src=assets/application/smile_end.png width="250"> </td> <td> <img src=assets/application/smile.gif width="250"> </td> </tr> <tr> <td> <img src=assets/application/stone01_start.png width="250"> </td> <td> <img src=assets/application/stone01_end.png width="250"> </td> <td> <img src=assets/application/stone01.gif width="250"> </td> </tr> </table >

2.3 循环视频生成

📝 更新日志

[2024.06.14]: 🔥🔥 发布插值训练代码。
[2024.05.24]: 发布WebVid10M-motion注释。
[2024.05.05]: 发布训练代码。
[2024.03.14]: 发布生成式帧插值和循环视频模型 (320x512)。
[2024.02.05]: 发布高分辨率模型 (320x512 & 576x1024)。
[2023.12.02]: 启动本地Gradio演示。
[2023.11.29]: 发布256x256分辨率的主要模型。
[2023.11.27]: 启动项目页面并更新arXiv预印本。 <br>

🧰 模型

模型	分辨率	GPU内存 & 推理时间 (A100, ddim 50步)	检查点
DynamiCrafter1024	576x1024	18.3GB & 75秒 (`perframe_ae=True`)	Hugging Face
DynamiCrafter512	320x512	12.8GB & 20秒 (`perframe_ae=True`)	Hugging Face
DynamiCrafter256	256x256	11.9GB & 10秒 (`perframe_ae=False`)	Hugging Face
DynamiCrafter512_interp	320x512	12.8GB & 20秒 (`perframe_ae=True`)	Hugging Face

目前，我们的DynamiCrafter可以支持生成最多16帧、分辨率为576x1024的视频。通过使用较少的DDIM步骤可以减少推理时间。

@noguchis在Twitter上报告的RTX 4090消耗的GPU内存：18.3GB (576x1024)，12.8GB (320x512)，11.9GB (256x256)。

⚙️ 设置

通过Anaconda安装环境（推荐）

conda create -n dynamicrafter python=3.8.5
conda activate dynamicrafter
pip install -r requirements.txt

💫 推理

1. 命令行

图像到视频生成

通过Hugging Face下载预训练模型，并将所需分辨率的model.ckpt放在checkpoints/dynamicrafter_[1024|512|256]_v1/model.ckpt中。
根据您的设备和需求在终端中运行命令。

  # 在单个GPU上运行：
  # 根据所需分辨率选择模型：例如，1024|512|320:
  sh scripts/run.sh 1024
  # 在多个GPU上并行推理：
  sh scripts/run_mp.sh 1024

生成式帧插值 / 循环视频生成

下载预训练模型DynamiCrafter512_interp并将model.ckpt放在checkpoints/dynamicrafter_512_interp_v1/model.ckpt中。

  sh scripts/run_application.sh interp # 生成帧插值
  sh scripts/run_application.sh loop   # 循环视频生成

2. 本地Gradio演示

图像到视频生成

下载预训练模型并按照之前的指南将它们放在相应的目录中。
在终端中输入以下命令（根据所需分辨率选择模型：1024、512或256）。

  python gradio_app.py --res 1024

生成式帧插值 / 循环视频生成

下载预训练模型并按照之前的指南将其放在相应的目录中。

  python gradio_app_interp_and_loop.py

💥 训练/微调

图像到视频生成

下载WebVid数据集，其中.csv文件中的重要项目包括page_dir、videoid和name。
下载预训练模型并按照之前的指引将它们放在相应的目录中。
在training_[1024|512]_v1.0/run.sh中更改<YOUR_SAVE_ROOT_DIR>路径。
仔细检查training_[1024|512]_v1.0/config.yaml中的所有路径，包括model:pretrained_checkpoint、data:data_dir和data:meta_path。
在终端中输入以下命令（根据所需分辨率选择1024或512模型）。

我们默认采用DDPShardedStrategy进行训练，请确保你的pytorch_lightning中可以使用它。

  sh configs/training_1024_v1.0/run.sh ## 微调DynamiCrafter1024

所有检查点/tensorboard记录/日志信息将保存在<YOUR_SAVE_ROOT_DIR>中。

生成式帧插值

下载预训练模型DynamiCrafter512_interp并将model.ckpt放在checkpoints/dynamicrafter_512_interp_v1/model.ckpt中。按照"图像到视频生成"中的相同微调程序操作，然后运行以下脚本：

sh configs/training_512_v1.0/run_interp.sh

🎁 WebVid-10M-motion注释（约260万条）

我们的WebVid-10M-motion注释可在Huggingface Dataset上获取。除原有注释外，我们还添加了三个与运动相关的注释：dynamic_confidence、dynamic_wording和dynamic_source_category。请参阅我们的补充文档（D节）了解更多详情。

🤝 社区支持

ComfyUI和压缩模型（bf16）：ComfyUI-DynamiCrafterWrapper（感谢kijai）

模型	分辨率	GPU内存	检查点
DynamiCrafter1024	576x1024	10GB	Hugging Face
DynamiCrafter512_interp	320x512	8GB	Hugging Face

ComfyUI：ComfyUI-DynamiCrafter（感谢chaojie）
ComfyUI：ComfyUI_Native_DynamiCrafter（感谢ExponentialML）
Docker：DynamiCrafter_docker（感谢maximofn）

👨‍👩‍👧‍👦 Crafter家族

VideoCrafter1：高质量视频生成框架。

ScaleCrafter：用于高分辨率图像/视频生成的免调整方法。

TaleCrafter：支持多角色的交互式故事可视化工具。

LongerCrafter：用于生成更长高质量视频的免调整方法。

MakeYourVideo，可能是个Crafter:)：具有文本和结构引导的视频生成/编辑。

StyleCrafter：基于风格化图像引导的文本到图像和文本到视频生成。

😉 引用

如果我们的代码和数据集注释对您有用，请考虑引用我们的论文：

@article{xing2023dynamicrafter,
  title={DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors},
  author={Xing, Jinbo and Xia, Menghan and Zhang, Yong and Chen, Haoxin and Yu, Wangbo and Liu, Hanyuan and Wang, Xintao and Wong, Tien-Tsin and Shan, Ying},
  journal={arXiv preprint arXiv:2310.12190},
  year={2023}
}