OVIS

Name: OVIS
Creator: 华中科技大学, 武汉, 中国 2 阿里巴巴集团, 北京, 中国 3 哥本哈根大学, 哥本哈根, 丹麦 4 约翰霍普金斯大学, 巴尔的摩, 美国 5 牛津大学, 牛津, 英国
Published: 2022-05-18 00:14:10
License: 暂无描述

arXiv2022-05-18 更新2024-06-21 收录

下载链接：

http://songbai.site/ovis

下载链接

链接失效反馈

官方服务：

资源简介：

OVIS数据集是由华中科技大学和阿里巴巴集团联合创建的大规模视频实例分割数据集，专注于在遮挡场景中同时检测、分割和跟踪实例。该数据集包含296,000个高质量实例掩码，涵盖25个语义类别，其中大部分对象存在遮挡情况。OVIS数据集的创建旨在探索视频理解系统在处理实际世界中广泛存在的遮挡问题时的能力，特别是在视频实例分割任务中。数据集的访问地址为http://songbai.site/ovis，适用于评估和开发处理严重对象遮挡的视频实例分割模型。

The OVIS dataset is a large-scale video instance segmentation dataset jointly created by Huazhong University of Science and Technology and Alibaba Group, which focuses on simultaneously detecting, segmenting and tracking instances in occluded scenarios. It contains 296,000 high-quality instance masks covering 25 semantic categories, with most of the objects experiencing occlusion. The OVIS dataset was developed to investigate the performance of video understanding systems in addressing the ubiquitous occlusion issues in real-world scenarios, with a particular focus on the video instance segmentation task. The dataset is accessible at http://songbai.site/ovis, and is suitable for evaluating and developing video instance segmentation models that handle severe object occlusion.

提供机构：

华中科技大学, 武汉, 中国 2 阿里巴巴集团, 北京, 中国 3 哥本哈根大学, 哥本哈根, 丹麦 4 约翰霍普金斯大学, 巴尔的摩, 美国 5 牛津大学, 牛津, 英国

创建时间：

2021-02-02

搜集汇总

数据集介绍

构建方式

OVIS（Occluded Video Instance Segmentation）数据集专为复杂遮挡场景下的视频实例分割任务而构建。其视频素材经过严格筛选：从8644个候选视频中仅保留901个，排除仅含单一物体、背景简洁、轮廓始终完整或物体静止的视频，确保每个片段时长5至60秒、分辨率1920×1080，并偏好长片段以充分呈现运动与遮挡动态。注释流程细致入微：每5帧标注一次，涵盖类别、掩膜和实例身份，特别规定物体因完全遮挡消失后重现时保持同一身份，新出现物体则赋予新ID。同时，为每个物体每帧标注遮挡程度（无遮挡、轻微遮挡、严重遮挡），并据此计算视频级遮挡评分。注释经双重校验与团队审核，最终产出296k个高质量实例掩膜，覆盖25个常见类别（如动物、车辆）。

特点

OVIS的核心特色在于其高度聚焦于真实世界中的遮挡场景。与YouTube-VIS等现有数据集相比，OVIS的mBOR（边界框遮挡率）达0.22，远超后者的0.06-0.07；约80.2%的实例在至少一帧中遭受严重遮挡，仅2%的实例全程可见。视频平均时长12.77秒、实例平均持续10.05秒，远超同类数据集，考验模型的长期跟踪能力。场景密集度高，每帧平均包含4.72个物体、每视频平均5.80个实例，是YouTube-VIS的三倍以上。这些特性共同构成一个极具挑战性的测试平台：当前最优基线方法在OVIS上的AP仅为16.3，而在严重遮挡组别中骤降至5.6，性能下降约80%，凸显了遮挡理解的巨大瓶颈。

使用方法

OVIS遵循标准视频实例分割评估协议，采用平均精度（AP）在不同IoU阈值下及平均召回率（AR）作为主要指标。此外，基于遮挡程度注释，数据集引入分层评估体系：将实例按遮挡评分划分为轻微遮挡（[0,0.25]）、中度遮挡（[0.25,0.5]）和严重遮挡（[0.5,0.75]）三组，分别计算AP_SO、AP_MO、AP_HO，以精细度量算法在不同遮挡强度下的表现。官方将数据集划分为607个训练视频、140个验证视频和154个测试视频，确保各类别在验证集和测试集中至少有4个视频。研究者可基于此框架，利用预训练模型（如COCO、YouTube-VIS）进行微调，或探索新型架构以应对遮挡推理挑战。数据集同时支持半监督/无监督视频目标分割及多目标跟踪等任务，扩展了其应用场景。

背景与挑战

背景概述

视频实例分割作为计算机视觉领域的前沿任务，旨在同时实现视频中目标的检测、分割与跟踪。然而，现实场景中物体间的相互遮挡严重制约了现有算法性能的发挥。为攻克这一难题，华中科技大学、阿里巴巴集团、康奈尔大学、约翰霍普金斯大学与牛津大学的研究团队于2021年共同发布了OVIS（Occluded Video Instance Segmentation）数据集。该数据集包含296k个高质量实例掩码及901个复杂遮挡场景，聚焦于重度遮挡下的视频理解。与同期YouTube-VIS数据集相比，OVIS的视频平均时长更长、场景更拥挤、遮挡程度更高，其平均边界框遮挡率（mBOR）达到0.22，远超同类基准。该数据集的提出为评估和推动遮挡感知算法的发展提供了关键测试平台，在NeurIPS 2021数据集与基准赛道发表后，迅速成为该领域的重要研究基准。

当前挑战

OVIS所解决的领域核心挑战在于重度遮挡下的视频实例分割。实验表明，当前最先进的九种基线方法在OVIS上的平均精度（AP）最高仅为16.3，而在重度遮挡目标组上的AP骤降至5.6，性能下降约80%，揭示了现有算法在复杂遮挡场景中的脆弱性。构建过程中面临多重挑战：首先，需从8644个视频候选集中严格筛选出符合遮挡条件、运动丰富且背景复杂的901个视频；其次，需对每5帧标注一次的高质量掩码进行遮挡等级划分，定义无遮挡、轻度遮挡与重度遮挡三类；此外，还需确保全遮挡后重现的目标保持同一身份标识，这对标注团队的时序推理能力提出极高要求。这些挑战使得OVIS成为检验视频理解系统鲁棒性的严峻试金石。

常用场景

经典使用场景

OVIS数据集专为视频实例分割中的遮挡场景而设计，其核心应用在于评估和提升算法在复杂遮挡条件下的感知能力。研究者利用该数据集训练模型，使其在密集人群、动物群或车辆队列等高度重叠的场景中，能够同时检测、分割并跟踪被部分或完全遮挡的实例。通过提供逐帧的遮挡等级标注，OVIS允许对算法在轻度、中度和重度遮挡下的表现进行精细剖析，从而推动视频理解系统向更贴近真实世界的复杂场景迈进。

解决学术问题

该数据集直面当前视频理解系统在遮挡感知上的严重短板——实验表明，现有最先进方法在OVIS上的平均精度较无遮挡场景骤降约80%，尤其在重度遮挡组中AP低至5.6。OVIS系统性地揭示了遮挡导致的目标丢失、身份切换和分割断裂等核心难题，为学术界提供了一个标准化的挑战平台。它促使研究者反思传统检测-跟踪范式的局限性，并催生了诸如时空上下文融合、长时记忆建模和更强骨干网络等针对性的解决方案，显著推动了遮挡推理这一关键学术问题的进展。

衍生相关工作

OVIS的发布直接催生了多项代表性工作，如团队Ach基于MaskTrack R-CNN引入有限采样策略和Swin Transformer骨干，将验证集AP从10.8提升至28.9；团队Ali2500采用STEm-Seg的底层架构，结合3D卷积和图像对合成训练，在重度遮挡组上取得显著增益；STMask则利用时序融合模块弥补遮挡造成的线索缺失。这些工作不仅刷新了OVIS上的性能标杆，还衍生出长视频采样策略、时空嵌入学习等通用技术，被后续研究广泛借鉴，形成了以遮挡理解为核心的研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集