VideoElevator

"VideoElevator: 利用多功能文本到图像扩散模型提升视频生成质量"的官方PyTorch实现

https://github.com/YBYBZhang/VideoElevator/assets/40799060/f850bc9c-ccf6-48b3-8011-394986aade71

VideoElevator旨在利用文本到图像扩散模型提升生成视频的质量。它是无需训练且即插即用的，支持各种文本到视频和文本到图像扩散模型的协作。

新闻

[2024/04/07] 我们发布了VideoElevator的代码，包括三个示例脚本。

方法

**上图：**以文本τ为输入，传统的T2V同时进行时间和空间建模，并在整个采样链中积累低质量内容。

**下图：**VideoElevator明确地将每个步骤分解为时间运动优化和空间质量提升，前者封装T2V以增强时间一致性，后者利用T2I提供更忠实的细节，例如穿着西装。经验表明，在几个时间步骤中应用T2V就足以确保时间一致性。

设置

1. 下载权重

所有预训练权重都下载到checkpoints/目录，包括文本到视频和文本到图像扩散模型的预训练权重。用户可以根据需要下载相应的权重。

文本到视频扩散模型：LaVie，ZeroScope，AnimateLCM。
文本到图像扩散模型：StableDiffusion v1.5，StableDiffusion v2.1-base。
[可选] Civitai的LoRA：RCNZ卡通，RealisticVision，Lyriel，ToonYou。

2. 环境要求

conda create -n videoelevator python=3.10
conda activate videoelevator
pip install -r requirements.txt

推理

我们在example_scripts/目录中提供了VideoElevator的三个示例脚本，推荐运行example_scripts/sd_animatelcm.py。要进行改进的文本到视频生成，直接运行命令python example_scripts/sd_animatelcm.py。

值得注意的是，所有脚本都可以在**不到11 GB VRAM（例如2080Ti GPU）**的情况下运行。

[可选] 超参数

您可以定义以下超参数，并在项目页面的消融研究中查看它们的效果：

stable_steps：时间运动优化中时间步的选择。
stable_num：T2V去噪中使用的步数。

引用

@article{zhang2024videoelevator,
  title={VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models},
  author={Zhang, Yabo and Wei, Yuxiang and Lin, Xianhui and Hui, Zheng and Ren, Peiran and Xie, Xuansong and Ji, Xiangyang and Zuo, Wangmeng},
  journal={arXiv preprint arXiv:2403.05438},
  year={2024}
}