MeViS

Name: MeViS
Creator: 复旦大学、上海财经大学、南洋理工大学
Published: 2025-12-12 02:59:44
License: 暂无描述

arXiv2025-12-12 更新2025-12-13 收录

下载链接：

https://henghuiding.com/MeViS/

下载链接

链接失效反馈

官方服务：

资源简介：

MeViS是由复旦大学等机构构建的大规模多模态视频分割数据集，专注于通过运动描述实现视频对象的语义分割与追踪。该数据集包含2,006个复杂场景视频，标注了8,171个目标对象和33,072条文本/音频形式的运动描述，涵盖单目标、多目标及无目标等多种表达类型。数据通过严格筛选具有交互运动特征的视频，并采用人工标注强调运动属性而非静态特征。该数据集支持视频对象分割、音频引导分割、多目标追踪和运动描述生成等任务，旨在推动动态场景下的视频语义理解算法发展。

MeViS is a large-scale multimodal video segmentation dataset developed by Fudan University and other institutions, focusing on semantic segmentation and tracking of video objects via motion descriptions. This dataset includes 2,006 videos of complex scenes, annotated with 8,171 target objects and 33,072 motion descriptions in text or audio formats, covering diverse expression types such as single-object, multi-object, and object-free scenarios. During its construction, videos with interactive motion features were strictly screened, and manual annotation was employed to prioritize motion attributes over static characteristics. This dataset supports tasks including video object segmentation, audio-guided segmentation, multi-object tracking, and motion description generation, aiming to advance the development of video semantic understanding algorithms in dynamic scenes.

提供机构：

复旦大学、上海财经大学、南洋理工大学

创建时间：

2025-12-12

原始信息汇总

MeViS 数据集概述

数据集简介

MeViS v2 是一个用于指代运动表达视频分割的大规模多模态数据集，其核心在于根据对物体运动的语言描述，在视频中分割和跟踪目标物体。该数据集旨在探索利用运动表达和运动推理线索进行像素级视频理解的可行性。

关键统计

运动表达：人类标注的运动表达，每个表达均包含文本和音频。
视频：密集场景的视频。
物体：具有复杂运动的物体。
掩码标注：高质量的掩码标注。

支持的任务

MeViS 支持对以下4个任务的15种现有方法进行基准测试：

指代视频对象分割 (RVOS)
音频引导视频对象分割 (AVOS)
指代多目标跟踪 (RMOT)
指代运动表达生成 (RMEG)（新引入任务）

数据集详情

数据集下载

数据集仅可用于非商业研究目的。可通过以下链接下载：

Hugging Face
Google Drive

数据集划分

总计：2,006 个视频 & 33,072 个句子。
训练集：1,662 个视频 & 27,502 个句子，用于训练。
Val u 集：50 个视频 & 907 个句子，提供真实标注，用于训练期间的离线自评估（如消融研究）。
Val 集：140 个视频 & 2,523 个句子，不提供真实标注，用于 Codabench 在线评估。
测试集：将在比赛期间（PVUW, LSVOS）逐步、选择性地发布并用于评估。

评估

请在 Codabench 提交 Val 集的结果。强烈建议在提交 Val 集结果到在线评估系统前，先使用 Val u 集在本地评估模型。

数据结构

数据集结构类似于 Refer-YouTube-VOS。每个数据划分包含三部分：

JPEGImages：存放帧图像。
meta_expressions.json：提供视频的指代表达和元数据。
mask_dict.json：包含物体的真实掩码（仅训练集和 Val u 集提供）。真实分割掩码以 COCO RLE 格式保存，表达的组织方式类似于 Refer-Youtube-VOS。

引用

若 MeViS 对您的研究有帮助，请考虑引用： bibtex @article{MeViSv2, title={MeViS: A Multi-Modal Dataset for Referring Motion Expression Video Segmentation}, author={Ding, Henghui and Liu, Chang and He, Shuting and Ying, Kaining and Jiang, Xudong and Loy, Chen Change and Jiang, Yu-Gang}, journal={IEEE Transactions on Pattern Analysis and Machine Intelligence}, year={2025}, publisher={IEEE} } @inproceedings{MeViS, title={{MeViS}: A Large-scale Benchmark for Video Segmentation with Motion Expressions}, author={Ding, Henghui and Liu, Chang and He, Shuting and Jiang, Xudong and Loy, Chen Change}, booktitle={ICCV}, year={2023} }

许可

MeViS 采用 CC-BY-NC-SA-4.0 许可发布，数据仅用于非商业研究目的。

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，视频对象分割任务正逐步从依赖静态属性描述转向对动态运动线索的深入理解。为应对这一趋势，MeViS数据集的构建过程经过精心设计，旨在突出视频中的时序运动特性。构建团队从公开的高质量视频分割数据集中筛选出包含多个交互运动对象的视频，严格排除那些仅凭静态属性即可描述孤立对象的低质量片段。在语言标注环节，采用交互式游戏化流程，由标注者根据特定准则撰写以运动线索为核心的表达，例如优先描述“行走”、“移动”等动态行为，而非颜色、形状等静态特征。标注完成后，验证者需独立识别目标对象，确保表达具有明确的运动指向性且无法通过单帧图像轻易识别，从而保证数据集的挑战性与一致性。此外，数据集还扩展了音频格式的表达，结合自动合成与人工录制，以支持多模态研究。

特点

MeViS数据集在视频对象分割领域展现出鲜明的特色，其核心在于强调运动表达与复杂场景的深度融合。该数据集包含2,006个视频、8,171个对象以及33,072条标注表达，规模居领域前列。视频内容多呈现多个外观相似对象的交互运动，平均每个视频包含4.28个对象，且视频与对象持续时间显著长于现有数据集，引入了对象消失重现、长期混淆等现实挑战。语言表达专注于运动属性，如“飞走”、“玩耍”等动态描述，并支持从单目标、多目标到无目标的广义指代表达，增强了数据集的实用性与泛化能力。此外，MeViS创新性地提供了文本与音频双模态表达，音频部分涵盖合成语音与真人录音，为音频引导的视频分割研究提供了丰富资源。这些特点共同使MeViS成为探索运动表达引导视频理解的理想平台。

使用方法

MeViS数据集为视频理解研究提供了多任务支持平台，其使用方法覆盖感知与生成等多个维度。在感知任务方面，数据集可用于指代视频对象分割（RVOS），通过文本或音频表达在视频中分割并跟踪目标对象；音频引导视频对象分割（AVOS）任务则直接利用音频表达进行对象分割，探索语音与视觉信号的融合。同时，数据集支持指代多目标跟踪（RMOT），将分割掩码转换为边界框轨迹，实现基于语言描述的多对象跟踪。在生成任务上，MeViS引入了指代运动表达生成（RMEG）任务，要求模型根据给定视频中的目标对象掩码生成无歧义的运动描述，考验模型的场景理解与语言生成能力。研究人员可通过公开的数据集链接获取数据，并利用提供的基准方法LMPM++进行实验，以推动运动表达引导的视频理解算法发展。

背景与挑战

背景概述

MeViS数据集由复旦大学、上海财经大学及南洋理工大学的研究团队于2023年提出，并于2025年扩展为MeViSv2版本，旨在推动基于运动表达的视频理解研究。该数据集聚焦于指代运动表达视频分割这一核心问题，即依据文本或音频形式的运动描述，在复杂视频场景中分割并追踪目标物体。相较于早期数据集如DAVIS17-RVOS和Refer-YouTube-VOS，MeViS强调视频中的时序运动特性与语言表达中的动态线索，而非依赖静态属性。其包含2,006个视频、8,171个物体及33,072条人工标注的运动表达，涵盖单目标、多目标及无目标等多种指代场景，显著提升了数据规模与任务复杂性。MeViS的建立为探索运动推理与像素级视频理解提供了关键平台，对计算机视觉与多模态学习领域产生了深远影响，促进了指代视频分割、音频引导视频分割、指代多目标追踪及运动表达生成等多个任务的发展。

当前挑战

MeViS数据集所解决的领域问题——指代运动表达视频分割——面临多重挑战。首要挑战在于模型需精准理解语言表达中描述的、可能跨越不同时间长度的运动模式，包括瞬时动作与长期行为，这要求算法具备强大的时序建模与运动推理能力。其次，视频中常存在多个外观相似的物体交互运动，仅凭单帧静态信息无法区分目标，必须依赖跨帧的动态线索进行辨识。此外，数据集引入了无目标表达与运动推理表达，要求模型具备处理误导性描述与隐含运动逻辑的鲁棒性。在构建过程中，挑战同样显著：为确保表达聚焦于运动属性，标注过程中需严格避免使用颜色、形状等静态描述，并设计双重验证机制以剔除仅凭单帧即可识别目标的样本；同时，为支持多模态研究，需同步采集与校验大量音频表达，并保证其与文本语义的一致性。这些设计使得MeViS成为当前最具挑战性的指代视频理解基准之一。

常用场景

经典使用场景

在视频理解领域，MeViS数据集为基于运动表达的视频对象分割任务提供了核心实验平台。该数据集通过精心设计的视频选择和标注流程，构建了包含复杂场景、多对象交互且强调时序运动特性的视频集合。研究者利用MeViS评估模型在给定文本或音频描述物体运动的情况下，对视频中目标对象进行像素级分割与跟踪的能力。其经典使用场景体现在推动模型超越静态属性识别，迫使算法必须理解跨帧的连续动作变化，例如区分“向左飞走的鸟”与“向右飞走的鸟”，从而深化对视频时序动态的建模。

解决学术问题

MeViS数据集主要解决了现有指代视频分割研究中过度依赖静态视觉属性和单帧识别能力的问题。传统数据集如Refer-YouTube-VOS和DAVIS-RVOS中的语言描述常富含颜色、形状等静态线索，使得目标可能在单帧内即可被确定，弱化了视频中运动理解的核心挑战。MeViS通过强制标注聚焦于物体运动，并引入包含零目标、多目标及需要运动推理的复杂表达式，将研究重心转向对时序动作的细粒度理解和跨模态对齐。该数据集的意义在于确立了运动表达引导的视频理解作为一个独立且关键的学术方向，推动了模型在长时序依赖、复杂场景推理和鲁棒性方面的进步。

衍生相关工作

围绕MeViS数据集，已衍生出一系列推动领域发展的经典工作。数据集本身提出的基线方法LMPM++，创新性地结合了语言引导的查询与大语言模型的时序推理能力，为处理长视频和复杂运动设定了新基准。在任务拓展上，MeViS支撑了指代视频对象分割、音频引导视频对象分割、指代多目标跟踪和指代运动表达生成四个核心任务，催生了如DsHmp、LoSh等专注于解耦静态与动态感知或长短文本联合预测的改进模型。此外，该数据集也被用于训练生成式视频编辑模型（如VIDiff）和多模态大语言模型（如Merlin），展示了其在生成式人工智能和高级视频推理任务中的泛化价值，持续激发着视频-语言多模态理解的新思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集