长期视频理解优秀资源

现实世界的视频通常比较长、未经剪辑，包含多个动作(事件)。传统上,视频理解主要关注短期分析,如单帧或短视频片段中的动作识别、目标检测/分割或场景理解。然而,随着更先进技术的出现和大规模视频数据集的增多,研究人员开始探索长期视频理解。这涉及开发可以识别和理解长时间内发生的复杂活动、事件或交互的方法。包括时序动作检测、密集视频描述、视频定位、未来视频预测和视频摘要等任务。

本仓库收集了专门针对长期视频的研究工作。这是一个活跃的仓库,欢迎您随时贡献!

长期视频理解优秀资源

表示学习

HierVL:学习分层视频-语言嵌入,CVPR 2023.
针对教学视频理解的程序感知预训练,CVPR 2023.
学习用于未剪辑视频多功能理解的接地视觉-语言表示,arXiv 2023.
长期视频的时序对齐网络,CVPR 2022.
具有多模态时序对比学习的长形式视频-语言预训练,NIPS 2022.
从未剪辑视频中学习:具有层次一致性的自监督视频表示学习,CVPR 2022.
时序动作定位任务的无监督预训练,CVPR 2022.
电影理解的分层自监督表示学习,CVPR 2022.
自我中心视频-语言预训练,NIPS 2022.
LocVTP:用于时序定位的视频-文本预训练,ECCV 2022.
视频中时序定位的边界敏感预训练,ICCV 2021.
TSP:用于定位任务的时序敏感视频编码器预训练,ICCVW 2021.
COOT:用于视频-文本表示学习的协作分层Transformer,NIPS 2020.

长期视频中的高效建模

MeMViT:用于高效长期视频识别的内存增强多尺度视觉Transformer,CVPR 2022.
用于详细视频理解的长期特征库,CVPR 2019.
基于多智能体强化学习的未剪辑视频有效识别帧采样,ICCV 2019.
TimeChat:用于长视频理解的时间敏感多模态大语言模型,CVPR 2024.
OmniVid:通用视频理解的生成框架,CVPR 2024.

长期视频大语言模型

长视频理解的语言仓库,2024.
VTimeLLM:赋予LLM把握视频时刻的能力,CVPR 2024.
Momentor:通过细粒度时间推理提升视频大语言模型,Arxiv 2024.
MA-LMM:用于长期视频理解的内存增强大型多模态模型,CVPR 2024.
VideoMosaic:为LLM连接长视频中的时间点,CVPR 2024.
MovieChat:从密集标记到稀疏记忆的长视频理解,CVPR 2024.
TimeChat:用于长视频理解的时间敏感多模态大语言模型,CVPR 2024.
MVBench:全面的多模态视频理解基准(VideoChat2),CVPR 2024.
LLM遇上长视频:通过LLM中的交互式视觉适配器推进长视频理解,2024.
LSTP:用于长形式视频-文本理解的语言引导空间-时间提示学习,2024.
[Agent] MM-Narrator:通过多模态上下文学习讲述长形式视频,CVPR 2024.
[Agent] VideoAgent:作为代理的大语言模型用于长形式视频理解,2024.
[Agent] VideoAgent:用于视频理解的记忆增强多模态代理,2024.
[Agent] ViLA:高效视频-语言对齐用于视频问答,2024.
[Agent] 用于视频定位和问答的自链式图像-语言模型,2024.
[Agent] VideoTree:用于LLM推理长视频的自适应树形视频表示,2024.
编码和控制长形式视频问答的全局语义,2024.

动作定位

时序动作定位

资源:

Github仓库:弱监督时序动作定位优秀资源
Github仓库:时序动作定位优秀资源
Github仓库:时序动作检测时序动作提案生成优秀资源
[综述] 基于深度学习的未剪辑视频中的动作检测:一项综述,TPAMI 2023.
[综述] 时序动作定位综述,IEEE Access 2020.

代表性论文(2023年之前):

ActionFormer:用Transformer定位动作时刻,ECCV 2022.
G-tad:时序动作检测的子图定位,CVPR 2020.
用于直接动作提案生成的松弛Transformer解码器,ICCV 2021.
通过密集边界生成器快速学习时序动作提案,AAAI 2020.
BMN:用于时序动作提案生成的边界匹配网络,ICCV 2019.
时序动作定位的图卷积网络,ICCV 2019.
重新思考时序动作定位的faster r-cnn架构,CVPR 2018.
BSN:用于时序动作提案生成的边界敏感网络,ECCV 2018.
SST:单流时序动作提案,CVPR 2017.
用结构化分段网络进行时序动作检测,ICCV 2017.
R-c3d:用于时序活动检测的区域卷积3D网络,ICCV 2017.
CDC:用于未剪辑视频中精确时序动作定位的卷积-反卷积网络,CVPR 2017.
TURN TAP:用于时序动作提案的时间单元回归网络,ICCV 2017.
单发时序动作检测,ACM MM 2017.
通过多阶段CNN在未剪辑视频中进行时序动作定位,CVPR 2016.
用Actoms进行动作的时序定位,TPAMI 2014.

最新论文(2023年之后)

ETAD:在笔记本电脑上端到端训练动作检测,CVPR 2023.
TriDet:具有相对边界建模的时序动作检测,CVPR 2023.
蒸馏视觉-语言预训练以配合弱监督时序动作定位,CVPR 2023.
Re2TAL:为可逆时序动作定位重新连接预训练视频骨干网络,CVPR 2023.
用文本信息增强弱监督时序动作定位,CVPR 2023.
基于提案的多实例学习用于弱监督时序动作定位,CVPR 2023.
Deepsegmenter:用于检测未剪辑自然驾驶视频中异常的时序动作定位,CVPR 2023.

视听事件定位

在未剪辑视频中密集定位视听事件:大规模基准和基线,CVPR 2023. [代码]
迈向长形式视听视频理解,Arxiv 2023.
非约束视频中的视听事件定位,ECCV 2018.

密集视频描述

Video ReCap：小时级视频的递归字幕生成，CVPR 2024。
学习未剪辑视频中多功能理解的基于地面真实的视觉语言表示，arXiv 2023。
Vid2Seq：大规模预训练视觉语言模型用于密集视频字幕生成，CVPR 2023。[代码]
通过预训练将事件检测和字幕生成统一为序列生成，ECCV 2022。
作为序列生成的端到端密集视频字幕生成，Coling 2022。
具有并行解码的端到端密集视频字幕生成，ICCV 2021。[代码]
草图、基础和精炼：自上而下的密集视频字幕生成，CVPR 2021。
简化的密集视频字幕生成，CVPR 2019。
具有上下文门控的双向注意力融合用于密集视频字幕生成，CVPR 2018。
使用掩码Transformer的端到端密集视频字幕生成，CVPR 2018。
视频中事件的弱监督密集字幕生成，NIPS 2018。
视频中事件的密集字幕生成，ICCV 2017。

视频段落字幕生成：

多句视频描述的对抗推理，CVPR 2019
COOT：用于视频-文本表示学习的协作层次Transformer，NIPS 2020。
密集视频字幕生成的多模态预训练，AACL 2020。
MART：用于连贯视频段落字幕生成的记忆增强循环Transformer，ACL 2020。
面向未剪辑视频的多样化段落字幕生成，CVPR 2021。
将视频段落字幕生成作为文本摘要任务，ACL 2021。

时序视频定位

资源：

[综述] 视频中的时序句子定位：综述和未来方向，TPAMI 2022。
[综述] 视频中时序句子定位的调查，ACM TOMM 2023。
[综述] 视频时刻定位调查，ACM Computing Surveys，2023。
Github仓库：优秀视频定位

代表性论文（2023年之前）：

负样本很重要：时序定位中度量学习的复兴，AAAI 2022。
视频中的密集事件定位，AAAI 2021。
时序定位的局部-全局视频-文本交互，CVPR 2020。
用于视频定位的密集回归网络，CVPR 2020。
学习用于时刻定位的2D时序邻接网络与自然语言，AAAI 2020。
找到你说话的地方：基于注意力的位置回归用于视频中的时序句子定位，AAAI 2020。
MAN：通过迭代图调整实现自然语言时刻检索的时刻对齐网络，CVPR 2019。
用于视频中时序句子定位的语义条件动态调制，NIPS 2019。
在视频中时序定位自然句子，EMNLP 2018。
TALL：通过语言查询的时序活动定位，ICCV 2017。

最新论文（2023年之后）：

学习未剪辑视频中多功能理解的基于地面真实的视觉语言表示，Arxiv 2023。
ProTeG´e：通过视频时序定位进行视频时序定位的未剪辑预训练，CVPR 2023。
用于高效2D时序视频定位的文本-视觉提示，CVPR 2023。
DeCo：通过粗到细对比排序进行组合时序定位的分解和重构，CVPR 2023。
用于视频段落定位的层次语义对应网络，CVPR 2023。
用于弱监督视频定位的迭代提案细化，CVPR 2023。
用于时空视频定位的协作静态和动态视觉-语言流，CVPR 2023。
你可以在看到之前就定位：压缩视频中时序句子定位的有效高效管道，CVPR 2023。
用于高效2D时序视频定位的文本-视觉提示，CVPR 2023。
具有不确定性引导自训练的弱监督时序句子定位，CVPR 2023。
面向泛化的视频时刻检索：将视觉-动态注入图像-文本预训练中，CVPR 2023。
层次视频-时刻检索和步骤字幕生成，CVPR 2023。

长期视频预测

[综述] 视频预测深度学习技术综述，TPAMI，2020。[论文]
重新审视用于持续长期视频预测的层次方法，ICLR 2021。
无监督的层次长期视频预测，ICML 2018。[论文]
通过层次预测学习生成长期未来，ICML 2017。

其他任务

[动作质量评估] LOGO：用于群体动作质量评估的长形式视频数据集，CVPR 2023。
[时空定位] 长形式视频中的关系时空查询，CVPR 2023。
[跟踪] XMem：基于Atkinson-Shiffrin记忆模型的长期视频目标分割，ECCV 2022。
[视频问答] 基于多模态层次记忆注意力网络的长期视频问答，TCSVT 2021。
[视频摘要] 基于长短期记忆的视频摘要，ECCV 2016。

数据集和工具

最新论文（2023年之后） [ 数据集 ] Panda-70M：使用多个跨模态教师为7000万视频生成字幕，CVPR 2024。 [ 数据集 ] MovieLLM：通过AI生成电影增强长视频理解，2024。一个新颖的框架，旨在为长视频创建高质量的合成数据。该框架利用GPT-4和文本到图像模型的能力生成详细的剧本和相应的视觉内容。

长期（未剪辑）视频数据集

数据集	标注	来源	数量	时长	任务	链接	发布日期
ActivityNet 1.3	时间戳 + 动作	YouTube	2万	-	动作定位
ActivityNet Captions	时间戳 + 字幕	YouTube	2万	-	密集字幕、视频定位
THUMOS	时间戳 + 动作	-	-	-	动作定位
YouCook2	时间戳 + 字幕	烹饪视频	-	-	密集字幕
MovieNet	时间戳 + 字幕 + 场景/动作/风格标签	电影	1.1千	>2小时	电影理解	MovieNet	2020
Charades	时间戳 + 动作标签	日常活动	9.8千	30秒	动作识别、动作定位	Charades	2017
Charades-STA	时间戳 + 字幕	日常活动	9.8千	30秒	视频定位	Charades-STA	2017
TACoS	时间戳 + 字幕	烹饪	-	-	视频定位	[TACoS]
DiDeMo
TACoS Multi-Level	时间戳 + 字幕	烹饪	-	-	密集字幕	TACoS Multi-Level
VIOLIN		YouTube和电视节目	6.7千 / 15.8千片段		视频和语言推理	VIOLIN
HowTo100M	边界 + 字幕		122万/1.36亿片段	582小时	预训练	-
YT-temporal180M	边界 + 字幕	-	-	-	预训练	-
EPIC-KITCHENS	-	-	-	-	-	epic-kitchens	-
HD_VILA_100M
FineGym	-	-	-	-	-	FineGym	-
MAD	-	-	-	-	-	MAD	-
MPII-MD	-	-	-	-	-	MPII-MD	-
M-VAD	-	-	-	-	-	M-VAD	-
HACS	-	-	-	-	-	HACS	-
PKU-MMD	-	-	-	-	-	PKU-MMD	-
MultiTHUMOS	-	-	-	-	-	MultiTHUMOS	-
VideoLT	-	-	-	-	-	VideoLT	2021
Ego4D	-	-	-	-	-	Ego4D	2021
ActivityNet Entities	-	-	-	-	-	Anet-Entity	2020
MovieQA	-	-	-	-	-	MoiveQA(已过期)	2018
MultiSports
FineAction	-	-	-	-	-	FineAction	2022
MUSES	-	-	-	-	-	MUSES	2021
XD-Violence	-	-	-	-	-	XD-Violence	2020
TVR	-	-	-	-	-	TVR	2020
HIREST	-	-	-	-	-	HIREST	2023
QVHighlights	-	-	-	-	-	QVHighlights	2020
ANetQA	-	-	-	-	-	ANetQA	2023