🏠[项目主页] 📄[arXiv] 📄[PDF] 🔥[数据集下载] 🔥[评估服务器]
本仓库包含ICCV2023论文的代码:
<table border=1 frame=void> <tr> <td><img src="https://yellow-cdn.veclightyear.com/835a84d5/1bbd88f9-a473-4b73-902b-abaf02d65dff.gif" width="245"></td> <td><img src="https://yellow-cdn.veclightyear.com/835a84d5/ad70f5ba-9dfc-4f11-b740-a0e25163c652.gif" width="245"></td> <td><img src="https://yellow-cdn.veclightyear.com/835a84d5/1206a8d0-c555-4e0a-b271-f69fedb4f572.gif" width="245"></td> </tr> </table>MeViS:基于运动表达的大规模视频分割基准
丁恒辉、刘畅、何舒婷、江旭东、陈庆龙
ICCV 2023
本研究致力于基于运动表达的视频分割,重点关注根据描述物体运动的句子对视频内容中的物体进行分割。现有的指代视频对象分割数据集忽视了运动在语言引导视频对象分割中的重要性。为了研究使用运动表达定位和分割视频中物体的可行性,我们提出了一个名为MeViS的大规模数据集,其中包含了大量用于指示复杂环境中目标对象的运动表达。MeViS基准的目标是提供一个平台,以促进开发有效的语言引导视频分割算法,这些算法将运动表达作为复杂视频场景中对象分割的主要线索。
<div align="center"> <img src="https://yellow-cdn.veclightyear.com/835a84d5/6e130735-11ff-47b0-8cfc-3821bab99672.png?raw=true" width="100%" height="100%"/> </div> <p style="text-align:justify; text-justify:inter-ideograph;width:100%">图1. <b>运动表达视频分割</b>(<b>MeViS</b>)的视频剪辑示例,用于说明数据集的性质和复杂性。<font color="#FF6403">MeViS中的表达主要关注运动属性和无法通过单帧识别的指代目标对象</font>。例如,第一个示例中有三只外观相似的鹦鹉,目标对象被描述为<i>"正在飞走的鸟"</i>。这个对象只能通过捕捉整个视频中的运动来识别。</p> <table border="0.6"> <div align="center"> <caption><b>表1. MeViS与现有语言引导视频分割数据集的规模比较。 </div> <tbody> <tr> <th align="right" bgcolor="BBBBBB">数据集</th> <th align="center" bgcolor="BBBBBB">发表年份</th> <th align="center" bgcolor="BBBBBB">视频数</th> <th align="center" bgcolor="BBBBBB">物体数</th> <th align="center" bgcolor="BBBBBB">表达式数</th> <th align="center" bgcolor="BBBBBB">掩码数</th> <th align="center" bgcolor="BBBBBB">物体/视频</th> <th align="center" bgcolor="BBBBBB">物体/表达式</th> <th align="center" bgcolor="BBBBBB">目标</th> </tr> <tr> <td align="right"><a href="https://kgavrilyuk.github.io/publication/actor_action/" target="_blank">A2D Sentence</a></td> <td align="center">CVPR 2018</td> <td align="center">3,782</td> <td align="center">4,825</td> <td align="center">6,656</td> <td align="center">58k</td> <td align="center">1.28</td> <td align="center">1</td> <td align="center">演员</td> </tr> <tr> <td align="right" bgcolor="ECECEC"><a href="https://www.mpi-inf.mpg.de/departments/computer-vision-and-machine-learning/research/video-segmentation/video-object-segmentation-with-language-referring-expressions" target="_blank">DAVIS17-RVOS</a></td> <td align="center" bgcolor="ECECEC">ACCV 2018</td> <td align="center" bgcolor="ECECEC">90</td> <td align="center" bgcolor="ECECEC">205</td> <td align="center" bgcolor="ECECEC">205</td> <td align="center" bgcolor="ECECEC">13.5k</td> <td align="center" bgcolor="ECECEC">2.27</td> <td align="center" bgcolor="ECECEC">1</td> <td align="center" bgcolor="ECECEC">物体</td> </tr> <tr> <td align="right"><a href="https://youtube-vos.org/dataset/rvos/" target="_blank">ReferYoutubeVOS</a></td> <td align="center">ECCV 2020</td> <td align="center">3,978</td> <td align="center">7,451</td> <td align="center">15,009</td> <td align="center">131k</td> <td align="center">1.86</td> <td align="center">1</td> <td align="center">物体</td> </tr> <tr> <td align="right" bgcolor="E5E5E5"><b>MeViS (我们的)</b></td> <td align="center" bgcolor="E5E5E5"><b>ICCV 2023</b></td> <td align="center" bgcolor="E5E5E5"><b>2,006</b></td> <td align="center" bgcolor="E5E5E5"><b>8,171</b></td> <td align="center" bgcolor="E5E5E5"><b>28,570</b></td> <td align="center" bgcolor="E5E5E5"><b>443k</b></td> <td align="center" bgcolor="E5E5E5"><b>4.28</b></td> <td align="center" bgcolor="E5E5E5"><b>1.59</b></td> <td align="center" bgcolor="E5E5E5"><b>物体</b></td> </tr> </tbody> <colgroup> <col> <col> <col> <col> <col> <col> <col> <col> <col> </colgroup> </table>⬇️ 点击这里下载数据集☁️。
数据集划分
请在以下平台提交您的验证集结果:
强烈建议在向在线评估系统提交验证集结果之前,先使用**验证集<sup>u</sup>**在本地评估您的模型。
该数据集的结构与Refer-YouTube-VOS类似。每个数据集划分包含三个部分:JPEGImages,存放帧图像;meta_expressions.json,提供指代表达式和视频元数据;以及mask_dict.json,包含物体的地面真实掩码。地面真实分割掩码以COCO RLE格式保存,表达式的组织方式类似于Refer-Youtube-VOS。
请注意,虽然训练集和验证集<sup>u</sup>提供了所有帧的注释,但验证集仅提供 用于推理的帧图像和指代表达式。
mevis
├── train // 训练集
│ ├── JPEGImages
│ │ ├── <视频 #1 >
│ │ ├── <视频 #2 >
│ │ └── <视频 #...>
│ │
│ ├── mask_dict.json
│ └── meta_expressions.json
│
├── valid_u // 验证集^u
│ ├── JPEGImages
│ │ └── <视频 ...>
│ │
│ ├── mask_dict.json
│ └── meta_expressions.json
│
└── valid // 验证集
├── JPEGImages
│ └── <视频 ...>
│
└── meta_expressions.json
请参见 INSTALL.md
获取Val<sup>u</sup>集的输出掩码:
python train_net_lmpm.py \
--config-file configs/lmpm_SWIN_bs8.yaml \
--num-gpus 8 --dist-url auto --eval-only \
MODEL.WEIGHTS [权重路径] \
OUTPUT_DIR [输出目录]
获取Val<sup>u</sup>集的J&F结果:
python tools/eval_mevis.py
获取Val集的输出掩码以进行CodaLab在线评估:
python train_net_lmpm.py \
--config-file configs/lmpm_SWIN_bs8.yaml \
--num-gpus 8 --dist-url auto --eval-only \
MODEL.WEIGHTS [权重路径] \
OUTPUT_DIR [输出目录] DATASETS.TEST '("mevis_test",)'
提交格式应为包含Val集预测.PNG结果的**.zip**文件(适用于当前比赛阶段)。
你可以使用以下命令准备.zip提交文件
cd [输出目录]
zip -r ../xxx.zip *
可以从CodaLab找到名为sample_submission_valid.zip的提交示例。
sample_submission_valid.zip // .zip文件,直接打包140个验证集视频文件夹
├── 0ab4afe7fb46 // 视频文件夹名
│ ├── 0 // 表达式id文件夹名
│ │ ├── 00000.png // .png文件
│ │ ├── 00001.png
│ │ └── ....
│ │
│ ├── 1
│ │ └── 00000.png
│ │ └── ....
│ │
│ └── ....
│
├── 0fea0cb75a25
│ ├── 0
│ │ ├── 00000.png
│ │ └── ....
│ │
│ └── ....
│
└── ....
首先,下载骨干网络权重(model_final_86143f.pkl)并使用脚本进行转换:
wget https://dl.fbaipublicfiles.com/maskformer/mask2former/coco/instance/maskformer2_swin_tiny_bs16_50ep/model_final_86143f.pkl
python tools/process_ckpt.py
然后开始训练:
python train_net_lmpm.py \
--config-file configs/lmpm_SWIN_bs8.yaml \
--num-gpus 8 --dist-url auto \
MODEL.WEIGHTS [权重路径] \
OUTPUT_DIR [权重路径]
注意:我们还通过提供ReferFormer_dataset.py支持训练ReferFormer
我们在MeViS数据集的Val<sup>u</sup>集和Val集上的结果。
☁️ 谷歌云盘
本项目基于 VITA、GRES、Mask2Former 和 VLT。非常感谢这些作者的杰出工作!
如果 MeViS 对您的研究有帮助,请考虑引用。
@inproceedings{MeViS, title={{MeViS}: A Large-scale Benchmark for Video Segmentation with Motion Expressions}, author={Ding, Henghui and Liu, Chang and He, Shuting and Jiang, Xudong and Loy, Chen Change}, booktitle={ICCV}, year={2023} }
@inproceedings{GRES, title={{GRES}: Generalized Referring Expression Segmentation}, author={Liu, Chang and Ding, Henghui and Jiang, Xudong}, booktitle={CVPR}, year={2023} }
@article{VLT, title={{VLT}: Vision-language transformer and query generation for referring segmentation}, author={Ding, Henghui and Liu, Chang and Wang, Suchen and Jiang, Xudong}, journal={IEEE Transactions on Pattern Analysis and Machine Intelligence}, year={2023}, publisher={IEEE} }
MeViS 中的大多数视频来自 MOSE: Complex Video Object Segmentation Dataset。
@inproceedings{MOSE, title={{MOSE}: A New Dataset for Video Object Segmentation in Complex Scenes}, author={Ding, Henghui and Liu, Chang and He, Shuting and Jiang, Xudong and Torr, Philip HS and Bai, Song}, booktitle={ICCV}, year={2023} }
MeViS 采用 CC BY-NC-SA 4.0 许可协议。MeViS 的数据仅供非商业研究目的使用。


最适合小白的AI自动化工作流平台
无需编码,轻松生成可复用、可变现的AI自动化工作流

大模型驱动的Excel数据处理工具
基 于大模型交互的表格处理系统,允许用户通过对话方式完成数据整理和可视化分析。系统采用机器学习算法解析用户指令,自动执行排序、公式计算和数据透视等操作,支持多种文件格式导入导出。数据处理响应速度保持在0.8秒以内,支持超过100万行数据的即时分析。


AI辅助编程,代码自动修复
Trae是一种自适应的集成开发环境(IDE),通过自动化和多元协作改变开发流程。利用Trae,团队能够更快速、精确地编写和部署代码,从而提高编程效率和项目交付速度。Trae具备上下文感知和代码自动完成功能,是提升开发效率的理想工具。


AI论文写作指导平台
AIWritePaper论文写作是一站式AI论文写作辅助工具,简化了选题、文献检索至论文撰写的整个过程。通过简单设定,平台可快速生成高质量论文大纲和全文,配合图表、参考文献等一应俱全,同时提供开题报告和答辩PPT等增值服务,保障数据安全,有效提升写作效率和论文质量。


AI一键生成PPT,就用博思AIPPT!
博思AIPPT,新一代的AI生成PPT平台,支持智能生成PPT、AI美化PPT、文本&链接生成PPT、导入Word/PDF/Markdown文档生成PPT等,内置海量精美PPT模板,涵盖商务、教育、科技等不同风格,同时针对每个页面提供多种版式,一键自适应切换,完美适配各种办公场景。


AI赋能电商视觉革命,一站式智能商拍平台
潮际好麦深耕服装行业,是国内AI试衣效果最好的软件。使用先进AIGC能力为电商卖家批量提供优质的、低成本的商拍图。合作品牌有Shein、Lazada、安踏、百丽等65个国内外头部品牌,以及国内10万+淘宝、天猫、京东等主流平台的品牌商家,为卖家节省将近85%的出图成本,提升约3倍出图效率,让品牌能够快速上架。


企业专属的AI法律顾问
iTerms是法大大集团旗下法律子品牌,基于最先进的大语言模型(LLM)、专业的法律知识库和强大的智能体架构,帮助企业扫清合规障碍,筑牢风控防线,成为您企业专属的AI法律顾问。


稳定高效的流量提升解决方案,助力品牌曝光
稳定高效的流量提升解决方案,助力品牌曝光


最新版Sora2模型免费使用,一键生成无水印视频
最新版Sora2模型免费使用,一键生成无水印视频


实时语音翻译/同声传译工具
Transly是一个多场景的AI大语言模型驱动的同声传译、专业翻译助手,它拥有超精准的音频识别翻译能力,几乎零延迟的使用体验和支持多国语言可以让你带它走遍全球,无论你是留学生、商务人士、韩剧美剧爱好者,还是出国游玩、多国会议、跨国追星等等,都可以满足你所有需要同传的场景需求,线上线下通用,扫除语言障碍,让全世界的语言交流不再有国界。
最新AI工具、AI资讯
独家AI资源、AI项目落地

微信扫一扫关 注公众号