MOSEv2

Name: MOSEv2
Creator: 复旦大学,字节跳动公司,上海财经大学,南洋理工大学,牛津大学
Published: 2025-08-08 01:59:27
License: 暂无描述

arXiv2025-08-08 更新2025-08-12 收录

下载链接：

https://huggingface.co/datasets/FudanCVL/MOSEv2

下载链接

链接失效反馈

官方服务：

资源简介：

MOSEv2数据集是一个用于视频目标分割的更具有挑战性的数据集，旨在推动视频目标分割方法在现实世界环境中的进一步发展。该数据集包含5024个视频和超过701,976个高质量的面具，涉及10,074个物体和200个类别。与它的前身MOSEv1相比，MOSEv2引入了更大的场景复杂性，包括更频繁的物体消失和重新出现，严重的遮挡和拥挤，更小的物体，以及一系列新的挑战，如恶劣天气、低光场景、多镜头序列、伪装物体、非物理目标（如阴影、反射）和需要外部知识的场景等。这些多样化和细粒度的挑战使MOSEv2成为评估和推进开放世界复杂场景中视频目标分割鲁棒性的理想基准。

MOSEv2 is a more challenging dataset for video object segmentation, designed to advance the development of video object segmentation methods in real-world environments. This dataset includes 5,024 videos and over 701,976 high-quality masks, encompassing 10,074 objects and 200 categories. Compared with its predecessor MOSEv1, MOSEv2 features greater scene complexity, including more frequent object disappearance and reappearance, severe occlusion and crowding, smaller objects, as well as a series of new challenges such as adverse weather, low-light scenarios, multi-shot sequences, camouflaged objects, non-physical targets (e.g., shadows, reflections), and scenarios requiring external knowledge, etc. These diverse and fine-grained challenges render MOSEv2 an ideal benchmark for evaluating and advancing the robustness of video object segmentation models in complex open-world scenarios.

提供机构：

复旦大学,字节跳动公司,上海财经大学,南洋理工大学,牛津大学

创建时间：

2025-08-08

原始信息汇总

MOSEv2数据集概述

基本信息

许可证: CC BY-SA 4.0
任务类别: 目标检测
标签: 视频对象分割、复杂场景、计算机视觉、分割、视频分析、基准测试
数据规模: 1K<n<10K
语言: 英语
名称: MOSEv2
论文: arXiv:2508.05630

数据集简介

MOSEv2是一个全面的视频对象分割数据集，旨在推动真实世界条件下的VOS方法发展。包含：

5,024个视频
701,976个高质量掩码
10,074个对象
200个类别

数据集特点

场景复杂性:
- 更频繁的对象消失和重现
- 严重的遮挡和拥挤
- 更小的对象
- 恶劣天气条件（雨、雪、雾）
- 低光场景（夜间、水下）
- 多镜头序列
- 伪装对象
- 非物理目标（阴影、反射）
- 需要外部知识的场景

基准测试结果

VOS方法性能下降:
- SAM2: 76.4% (MOSEv1) → 50.9% (MOSEv2)
视频对象跟踪方法也观察到类似下降

数据集结构

<train/valid.tar.gz> │ ├── Annotations │ │ │ ├── <video_name_1> │ │ ├── 00000.png │ │ ├── 00001.png │ │ └── ... │ │ │ ├── <video_name_2> │ │ ├── 00000.png │ │ ├── 00001.png │ │ └── ... │ │ │ ├── <video_name_...> │ └── JPEGImages │ ├── <video_name_1> │ ├── 00000.jpg │ ├── 00001.jpg │ └── ... │ ├── <video_name_2> │ ├── 00000.jpg │ ├── 00001.jpg │ └── ... │ └── <video_name_...>

引用

bibtex @article{MOSEv2, title={{MOSEv2}: A More Challenging Dataset for Video Object Segmentation in Complex Scenes}, author={Ding, Henghui and Ying, Kaining and Liu, Chang and He, Shuting and Jiang, Xudong and Jiang, Yu-Gang and Torr, Philip HS and Bai, Song}, journal={arXiv preprint arXiv:2508.05630}, year={2025} }

许可证

类型: CC BY-NC-SA 4.0
限制: 仅限非商业研究用途

搜集汇总

数据集介绍

构建方式

MOSEv2数据集的构建基于其前身MOSEv1，并进一步扩展了视频来源和标注复杂性。视频来源于MOSEv1的2,149个视频以及新采集的现实场景和互联网版权免费视频。为确保场景复杂性和多样性，数据集遵循严格的筛选规则，包括多对象共存、遮挡、对象消失与重现、多样化的对象尺度和可见性条件等。标注过程使用交互式标注工具，结合SAM2辅助生成高质量掩码，并由验证团队确保标注质量。最终数据集包含5,024个视频、10,074个对象实例和超过701,976个高质量掩码，覆盖200个类别。

使用方法

MOSEv2支持多种视频对象分割（VOS）和视频对象跟踪（VOT）任务评估。在VOS任务中，数据集提供半监督（掩码/框/点初始化）、无监督和交互式设置。评估指标包括区域相似度（𝒥）、轮廓准确度（ℱ）及其自适应阈值改进版本（ℱ̇），并针对消失（𝒥&ℱ̇d）和重现（𝒥&ℱ̇r）场景设计专用指标。对于VOT任务，分割掩码可转换为边界框进行评估。数据集按3,666/433/614划分训练/验证/测试集，并保留311个MOSEv1视频作为兼容性验证集。使用时需注意其复杂场景对现有方法性能的显著影响（如SAM2性能从DAVIS的90.7%降至50.9%）。

背景与挑战

背景概述

MOSEv2是由Fudan University、ByteDance Inc.、Shanghai University of Finance and Economics、Nanyang Technological University和University of Oxford的研究团队于2025年提出的视频对象分割（VOS）数据集。该数据集旨在解决现有基准数据集（如DAVIS和YouTube-VOS）中目标对象多为显著、孤立且场景简单的问题，推动VOS研究向更复杂的真实世界场景发展。MOSEv2包含5,024个视频和701,976个高质量掩码，涵盖200个类别的10,074个对象实例，显著增加了场景复杂性，包括更频繁的对象消失与重现、严重遮挡、拥挤场景、小物体以及恶劣天气、低光照环境、多镜头序列等新挑战。该数据集已成为评估和推动复杂视频对象分割方法发展的重要基准。

当前挑战

MOSEv2数据集面临的主要挑战包括：1) 领域问题挑战：现有VOS方法在复杂场景下的性能显著下降，如SAM2在DAVIS 2017上达到90.7%的J&F，而在MOSEv2上仅为50.9%，凸显了真实场景中对象分割的困难；2) 构建过程挑战：数据收集需满足严格标准，如必须包含多对象、遮挡、消失重现等复杂场景；标注过程需要精确跟踪目标对象，特别是在对象消失或完全遮挡时需确认空白掩码，且至少每5帧标注一次；验证团队需确保复杂场景下的标注质量，这对标注工具和人员都提出了极高要求。此外，数据集引入了自适应边界阈值等新评估指标，以更公平地评估不同大小对象的分割质量。

常用场景

经典使用场景

在计算机视觉领域，视频对象分割(VOS)是一项基础而关键的任务，旨在对视频中特定目标对象进行逐帧分割。MOSEv2数据集作为当前最具挑战性的VOS基准，其经典使用场景聚焦于复杂真实环境下的对象分割研究。该数据集通过精心设计的5,024个视频序列，系统性地涵盖了目标消失重现、严重遮挡、密集人群、小目标等200类复杂场景，为评估算法在极端条件下的鲁棒性提供了标准化测试平台。研究者可利用其丰富的标注信息（701,976个高质量掩码）开展半监督、无监督和交互式VOS方法的性能验证，特别是在处理动态遮挡、多镜头切换等传统数据集未覆盖的复杂情况时，MOSEv2展现出独特的评估价值。

解决学术问题

MOSEv2有效解决了当前VOS研究中的关键学术问题：首先突破了传统数据集（如DAVIS、YouTube-VOS）仅包含显著孤立对象的局限，通过引入61.8%的高消失重现率样本，为长期时序关联研究提供了必要数据支撑；其次针对小目标分割难题，数据集中50.2%的掩码面积小于图像尺寸1%，推动了细粒度感知算法的发展；更重要的是，该数据集首次系统整合了恶劣天气、低光照、伪装目标等现实挑战，将平均遮挡率提升至47%，显著降低了算法在理想环境下的评估偏差。实验表明，顶尖VOS方法在MOSEv2上的性能较传统基准下降达39.8个百分点，揭示了现有技术在真实场景中的适应性缺陷。

实际应用

在实际应用层面，MOSEv2的复杂场景特性使其成为自动驾驶、智能监控等领域的重要测试基准。数据集包含280段水下视频和255段夜间场景，可验证算法在能见度受限条件下的可靠性；其多镜头序列（277个样本）和知识依赖场景（256个实例）直接对应视频编辑、增强现实等应用的现实需求。在工业质检中，数据集中13.6的平均干扰物数量为开发抗干扰分割系统提供了严格测试环境。此外，MOSEv2支持从掩码到检测框的转换，已成功应用于9种视频目标跟踪算法的评估，在智慧城市人流分析等任务中展现出跨任务迁移价值。

数据集最近研究