FLAVR

FLAVR

创新视频帧插值方法实现快速多帧预测

FLAVR是一种新型视频帧插值方法,无需光流估计即可实现快速多帧预测。该方法采用特殊的编码器-解码器架构,结合时空卷积和通道门控,能有效捕捉复杂运动轨迹并生成高质量高帧率视频。相比现有技术,FLAVR在速度和准确性间取得更好平衡,为视频慢动作和帧率提升等应用提供新选择。

FLAVR视频插帧深度学习计算机视觉帧率提升Github开源项目

FLAVR: 用于快速帧插值的流不敏感视频表示

WACV 2023(最佳论文入围者)

示例1 示例2

[项目页面] [论文] [[项目视频](https://github.com/tarun005/FLAVR/blob/main/youtu.be/HFOY7CGpJRM]

FLAVR是一种快速、无需光流的帧插值方法,能够进行单次多帧预测。它使用定制的编码器-解码器架构,结合时空卷积和通道门控,捕捉并插值帧间复杂的运动轨迹,生成逼真的高帧率视频。此仓库包含原始源代码。

推理时间

与先前的帧插值方法相比,FLAVR在速度和精度之间提供了更好的权衡。

方法512x512图像的FPS(秒)
FLAVR3.10
SuperSloMo3.33
QVI1.02
DAIN0.77

依赖项

我们使用以下环境来训练和测试模型:

  • Ubuntu 18.04
  • Python==3.7.4
  • numpy==1.19.2
  • PyTorch==1.5.0, torchvision==0.6.0, cudatoolkit==10.1

模型

<center><img src="https://yellow-cdn.veclightyear.com/0a4dffa0/49e439da-c83d-4f11-ad95-15f3ba0078a1.png" width="90%"></center>

在Vimeo-90K七元组上训练模型

要在Vimeo-90K数据集上训练自己的模型,请使用以下命令。您可以从此链接下载数据集。论文中报告的结果是使用8个GPU训练的。

python main.py --batch_size 32 --test_batch_size 32 --dataset vimeo90K_septuplet --loss 1*L1 --max_epoch 200 --lr 0.0002 --data_root <数据集路径> --n_outputs 1

在GoPro数据集上训练类似,将n_outputs改为7以进行8倍插值。

使用训练好的模型进行测试

预训练模型

您可以从以下链接下载预训练的FLAVR模型:

方法训练模型
2x链接
4x链接
8x链接

2倍插值

要在Vimeo-90K七元组验证集上测试预训练模型,可以运行以下命令:

python test.py --dataset vimeo90K_septuplet --data_root <数据路径> --load_from <保存的模型> --n_outputs 1

8倍插值

要测试多帧插值模型,使用相同的命令和多帧FLAVR模型,相应地更改n_outputs

时间基准测试

测试脚本除了计算PSNR和SSIM值外,还将输出插值的推理时间和速度。

在Middleburry上评估

要在Middleburry公开基准上进行评估,请运行以下命令:

python Middleburry_Test.py --data_root <数据路径> --load_from <模型路径>

插值后的图像将以可直接上传到 排行榜 的格式保存在 Middleburry 文件夹中。

在自定义视频上使用 SloMo-Filter

你可以使用我们训练好的模型,并将慢动作滤镜应用到你自己的视频上(需要 OpenCV 4.2.0)。使用以下命令。如果你想将 30FPS 的视频转换为 240FPS 的视频,只需使用以下命令

python interpolate.py --input_video <输入视频> --factor 8 --load_model <模型路径>

使用我们的 预训练模型 进行 8 倍插值。要将 30FPS 的视频转换为 60FPS 的视频,请使用 2 倍模型,并将 factor 设为 2。

基线模型

我们还在我们的设置上训练了许多其他先前工作的模型,并提供了所有这些方法的模型。完整的基准测试脚本也将很快发布。

新消息 [2024年4月]:由于谷歌对加州大学圣地亚哥分校的谷歌云盘存储限额进行了令人震惊的削减,我失去了对下面列出的其他方法的预训练模型的访问权限。我希望将来能重新训练它们并发布新的链接,但不要指望。抱歉!

方法Vimeo 上的 PSNR训练好的模型
FLAVR36.3模型
AdaCoF35.3模型
QVI*35.15模型
DAIN34.19模型
SuperSloMo*32.90模型
  • SuperSloMo 使用 此处 的代码库实现。其他基线使用官方代码库实现。
  • 这里呈现的基线数据略好于论文中报告的数据。

Google Colab

本仓库的 notebooks 目录中提供了一个 Colab 笔记本,用于在自定义视频上尝试 2 倍慢动作滤镜。

运动放大模型

很遗憾,我们目前无法提供用于运动放大的训练模型。我们正在努力尽快提供一个可用的模型。

致谢

代码大量借鉴了 Facebook 官方的 PyTorch 视频仓库CAIN

引用

如果这个代码对你的工作有帮助,请考虑引用我们。

@article{kalluri2023flavr, title={FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation}, author={Kalluri, Tarun and Pathak, Deepak and Chandraker, Manmohan and Tran, Du}, booktitle={WACV}, year={2023} }

编辑推荐精选

潮际好麦

潮际好麦

AI赋能电商视觉革命,一站式智能商拍平台

潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。

iTerms

iTerms

企业专属的AI法律顾问

iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。

SimilarWeb流量提升

SimilarWeb流量提升

稳定高效的流量提升解决方案,助力品牌曝光

稳定高效的流量提升解决方案,助力品牌曝光

Sora2视频免费生成

Sora2视频免费生成

最新版Sora2模型免费使用,一键生成无水印视频

最新版Sora2模型免费使用,一键生成无水印视频

Transly

Transly

实时语音翻译/同声传译工具

Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。

讯飞绘文

讯飞绘文

选题、配图、成文,一站式创作,让内容运营更高效

讯飞绘文,一个AI集成平台,支持写作、选题、配图、排版和发布。高效生成适用于各类媒体的定制内容,加速品牌传播,提升内容营销效果。

热门AI辅助写作AI工具讯飞绘文内容运营AI创作个性化文章多平台分发AI助手
TRAE编程

TRAE编程

AI辅助编程,代码自动修复

Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。

AI工具TraeAI IDE协作生产力转型热门
商汤小浣熊

商汤小浣熊

最强AI数据分析助手

小浣熊家族Raccoon,您的AI智能助手,致力于通过先进的人工智能技术,为用户提供高效、便捷的智能服务。无论是日常咨询还是专业问题解答,小浣熊都能以快速、准确的响应满足您的需求,让您的生活更加智能便捷。

imini AI

imini AI

像人一样思考的AI智能体

imini 是一款超级AI智能体,能根据人类指令,自主思考、自主完成、并且交付结果的AI智能体。

Keevx

Keevx

AI数字人视频创作平台

Keevx 一款开箱即用的AI数字人视频创作平台,广泛适用于电商广告、企业培训与社媒宣传,让全球企业与个人创作者无需拍摄剪辑,就能快速生成多语言、高质量的专业视频。

下拉加载更多