MeViS
收藏MeViS 数据集概述
数据集简介
MeViS v2 是一个用于指代运动表达视频分割的大规模多模态数据集,其核心在于根据对物体运动的语言描述,在视频中分割和跟踪目标物体。该数据集旨在探索利用运动表达和运动推理线索进行像素级视频理解的可行性。
关键统计
- 运动表达:人类标注的运动表达,每个表达均包含文本和音频。
- 视频:密集场景的视频。
- 物体:具有复杂运动的物体。
- 掩码标注:高质量的掩码标注。
支持的任务
MeViS 支持对以下4个任务的15种现有方法进行基准测试:
- 指代视频对象分割 (RVOS)
- 音频引导视频对象分割 (AVOS)
- 指代多目标跟踪 (RMOT)
- 指代运动表达生成 (RMEG)(新引入任务)
数据集详情
数据集下载
数据集仅可用于非商业研究目的。可通过以下链接下载:
- Hugging Face
- Google Drive
数据集划分
- 总计:2,006 个视频 & 33,072 个句子。
- 训练集:1,662 个视频 & 27,502 个句子,用于训练。
- Val u 集:50 个视频 & 907 个句子,提供真实标注,用于训练期间的离线自评估(如消融研究)。
- Val 集:140 个视频 & 2,523 个句子,不提供真实标注,用于 Codabench 在线评估。
- 测试集:将在比赛期间(PVUW, LSVOS)逐步、选择性地发布并用于评估。
评估
请在 Codabench 提交 Val 集的结果。强烈建议在提交 Val 集结果到在线评估系统前,先使用 Val u 集在本地评估模型。
数据结构
数据集结构类似于 Refer-YouTube-VOS。每个数据划分包含三部分:
JPEGImages:存放帧图像。meta_expressions.json:提供视频的指代表达和元数据。mask_dict.json:包含物体的真实掩码(仅训练集和 Val u 集提供)。 真实分割掩码以 COCO RLE 格式保存,表达的组织方式类似于 Refer-Youtube-VOS。
引用
若 MeViS 对您的研究有帮助,请考虑引用: bibtex @article{MeViSv2, title={MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation}, author={Ding, Henghui and Liu, Chang and He, Shuting and Ying, Kaining and Jiang, Xudong and Loy, Chen Change and Jiang, Yu-Gang}, journal={IEEE Transactions on Pattern Analysis and Machine Intelligence}, year={2025}, publisher={IEEE} } @inproceedings{MeViS, title={{MeViS}: A Large-scale Benchmark for Video Segmentation with Motion Expressions}, author={Ding, Henghui and Liu, Chang and He, Shuting and Jiang, Xudong and Loy, Chen Change}, booktitle={ICCV}, year={2023} }
许可
MeViS 采用 CC-BY-NC-SA-4.0 许可发布,数据仅用于非商业研究目的。




