MAD: 一个可扩展的电影音频描述视频语言定位数据集

简介

MAD: 一个可扩展的电影音频描述视频语言定位数据集的官方代码仓库。[ArXiv预印本]

论文已被CVPR22接收。

mad

新闻

[2023年3月] MAD-v2现已发布，详情请查看此链接。MADv2改进了MADv1提供的训练注释，通过Whisper减少了转录错误和单词识别错误。此外，AutoAD引入了MAD数据上的第一个字幕生成基线。 [2022年6月] MAD-v1在CVPR2022上被接受。 [2022年6月] MAD-v1发布。

MAD是什么？

MAD是一个从电影音频描述中收集的大规模数据集，用于视频语言定位任务。它包含384K个句子，这些句子在650部不同且多样化的电影中超过1.2K小时的连续视频中进行定位。

涵盖90年电影史中的22个流派，MAD涵盖了广泛的动作、地点和场景。此外，MAD从广泛的电影类型中继承了多样化的视觉和语言内容，从虚构到日常生活。

这些特性产生了一个独特的长形式定位设置，具有大型语言词汇量和在准确性和效率方面的挑战性要求。

请求访问MAD数据集

要获取MAD数据集（注释和预提取特征）的访问权限，请按以下步骤操作：

1- 填写此表格（链接）并签署NDA（保密协议）。

2- 我们将验证所提供信息的正确性。

3- 您将收到一封包含下载数据凭证的电子邮件。

在此处查看数据文档。

数据下载

确认邮件将包含访问数据的链接和密码。每个文件都可以通过网页界面下载，或使用提供的脚本MAD_downloader.py，使用方法如下：

python MAD_downloader.py --destination_folder {PATH_TO_DOWNLOAD} --download_link {LINK} --password {PASSWORD}

所需依赖：pip install google-measurement-protocol tqdm

视频-语言定位基线

本仓库包含主要论文中使用的基线代码。要复现结果并使用我们的代码，请访问以下两个链接：

零样本CLIP（链接）
VLG-Net（链接）

对额外视觉/语言特征的支持

由于版权限制，我们不会发布电影。尽管如此，为了促进新的研究并跟上不断变化的需求，MAD团队将根据要求提供计算视觉/语言特征的支持。 如果您需要一组新的特征（除了我们已经提供的），请通过电子邮件联系或在此仓库上提出问题。

我们将很快发布一个docker镜像以简化这个过程。

引用

如果我们的论文的任何部分对您的工作有帮助，请引用：

@InProceedings{Soldan_2022_CVPR,
    author    = {Soldan, Mattia and Pardo, Alejandro and Alc\'azar, Juan Le\'on and Caba, Fabian and Zhao, Chen and Giancola, Silvio and Ghanem, Bernard},
    title     = {MAD: A Scalable Dataset for Language Grounding in Videos From Movie Audio Descriptions},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2022},
    pages     = {5026-5035}
}

@article{rohrbach2017movie,
      title={Movie description},
      author={Rohrbach, Anna and Torabi, Atousa and Rohrbach, Marcus and Tandon, Niket and Pal, Christopher and Larochelle, Hugo and Courville, Aaron and Schiele, Bernt},
      journal={International Journal of Computer Vision},
      volume={123},
      number={1},
      pages={94--120},
      year={2017},
      publisher={Springer}
}

如果您使用了MAD-v2注释，也请引用这项工作：

@InProceedings{han2023autoad,
    title={{AutoAD}: Movie Description in Context},  
    author={Tengda Han and Max Bain and Arsha Nagrani and G\"ul Varol and Weidi Xie and Andrew Zisserman},  
    booktitle={CVPR},  
    year={2023}}