VOS

Name: VOS
Creator: 虚拟现实技术与系统国家重点实验室，计算机科学与工程学院，北京航空航天大学
Published: 2017-05-09 15:38:17
License: 暂无描述

arXiv2017-05-09 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/1611.00135v2

下载链接

链接失效反馈

官方服务：

资源简介：

VOS是一个包含200个视频的大型视频显著性检测数据集，总时长64分钟。该数据集通过手动标注7650个关键帧中的所有对象和区域，并收集23名受试者的眼动追踪数据来构建。VOS旨在通过结合手动标注的对象/区域掩码和多受试者的眼动追踪数据，明确地定义和标注视频中的显著对象。数据集的应用领域是视频显著性对象检测，旨在解决视频中显著对象的自动检测和分割问题。

VOS is a large-scale video saliency detection dataset consisting of 200 videos with a total duration of 64 minutes. This dataset is constructed by manually annotating all objects and regions across 7650 key frames, and collecting eye-tracking data from 23 participants. VOS aims to explicitly define and annotate salient objects in videos by combining manually annotated object/region masks and eye-tracking data from multiple participants. The dataset targets the domain of video salient object detection, with the goal of addressing the automatic detection and segmentation of salient objects in videos.

提供机构：

虚拟现实技术与系统国家重点实验室，计算机科学与工程学院，北京航空航天大学

创建时间：

2016-11-01

搜集汇总

数据集介绍

构建方式

在视频显著性检测领域，构建高质量数据集面临定义模糊与标注主观的挑战。VOS数据集通过融合眼动追踪数据与人工标注对象掩码，创新性地定义了视频中显著性对象。具体构建流程包括：从互联网采集200段室内外视频，总时长64分钟；由23名受试者自由观看并记录眼动数据；另由4名标注者对7,650个均匀采样的关键帧进行全对象精细标注。基于眼动数据计算对象在视频时间维度上的持续注视密度，结合人工标注掩码，最终生成7,467帧具有明确显著性对象二元掩码的关键帧。

特点

VOS数据集在规模与标注质量上具有显著优势。其包含200段视频，涵盖116,103帧，是目前视频显著性检测领域规模最大的数据集。数据集依据场景复杂度划分为VOS-E（简单子集，97段视频）与VOS-N（正常子集，103段视频），分别用于基准测试与真实场景挑战。标注过程通过多受试者眼动数据与人工掩码的结合，有效减少了主观偏差，使显著性对象的定义在时空维度上更为一致。数据统计显示，其显著性对象的数量与面积分布与复杂图像数据集DUT-O相似，表明其能够反映真实场景的多样性。

使用方法

VOS数据集主要用于视频显著性检测模型的训练与性能评估。研究者可利用其提供的视频序列、关键帧显著性掩码及眼动数据，开发或验证各类时空显著性计算模型。数据集中VOS-E子集适用于探索图像与视频显著性检测的内在关联，VOS-N子集则适合在复杂动态场景中测试模型鲁棒性。使用时可遵循标准评估协议，计算模型输出与真实掩码之间的平均精度、召回率、Fβ分数与平均绝对误差等指标。该数据集亦支持无监督学习方法，如论文提出的显著性引导堆叠自编码器，为模型比较提供了公平基准。

背景与挑战

背景概述

在计算机视觉领域，显著目标检测（Salient Object Detection, SOD）作为一项基础任务，旨在模拟人类视觉系统对场景中最引人注目区域的感知机制。尽管基于图像的显著目标检测已因大规模数据集（如ImageNet）的推动而取得显著进展，但基于视频的显著目标检测研究却因缺乏大规模、标注清晰的视频数据集而发展缓慢。为此，北京航空航天大学虚拟现实技术与系统国家重点实验室的李嘉、夏常群和陈小武等研究人员于2017年提出了VOS数据集，该数据集包含200个室内外视频，总计64分钟时长，并基于眼动数据和人工标注对象掩码，首次从时空一致性角度明确定义了视频中的显著目标。VOS的构建不仅填补了视频显著目标检测领域大规模基准数据集的空白，还为相关模型的开发与评估提供了坚实基础，极大地促进了该领域从传统图像方法向时空维度拓展的研究进程。

当前挑战

VOS数据集所针对的视频显著目标检测任务，核心挑战在于如何从动态、复杂的视频序列中准确识别并分割出在时空维度上持续突出的目标。这要求模型不仅需处理视频中常见的动态背景、目标遮挡、快速运动及光照变化等复杂场景，还需克服显著目标定义的主观模糊性——传统方法依赖人工标注，易引入个体偏见，而VOS通过融合眼动数据与对象掩码，虽缓解了歧义，但仍需解决标注过程中因注视点稀疏、注意力转移及背景帧干扰带来的技术难题。在数据集构建层面，挑战主要体现在大规模视频数据的采集与标注效率上：需平衡标注精度与成本，例如通过关键帧采样和多人标注策略来确保数据质量，同时避免因视频内容冗余导致的过拟合风险。此外，数据集的多样性与真实性亦是关键，VOS通过涵盖日常场景视频，旨在提升模型在真实环境中的泛化能力，但这亦增加了模型处理异质内容的难度。

常用场景

经典使用场景

在计算机视觉领域，视频显著性物体检测旨在识别并分割视频序列中持续吸引人类视觉注意的物体。VOS数据集作为该领域的大规模基准，其经典使用场景在于为研究者提供丰富的真实世界视频素材，涵盖室内外多样环境，从而支持开发与评估基于时空特征的显著性检测模型。通过结合眼动数据与人工标注，VOS确保了显著性定义的客观性，使得模型能够在复杂动态背景下准确捕捉时空一致的突出物体。

解决学术问题

VOS数据集主要解决了视频显著性物体检测中缺乏大规模、明确定义标注数据的关键问题。以往研究受限于小规模数据集，如SegTrack或ViSal，导致模型评估不全面且易过拟合。VOS通过整合200个视频、7,650个关键帧的眼动追踪与物体掩码标注，提供了时空显著性的一致定义，显著促进了无监督与深度学习模型的发展。该数据集的建立不仅统一了评估标准，还揭示了图像与视频显著性检测的内在关联，推动了跨领域方法的演进。

衍生相关工作

基于VOS数据集，多项经典研究工作得以衍生，进一步拓展了视频显著性检测的边界。例如，原论文提出的显著性引导堆叠自编码器模型为无监督方法设立了新基准，后续研究如DHSNet等深度模型在此基础上引入了循环架构以增强时空一致性。此外，VOS还激发了跨模态显著性检测的探索，例如结合RGB-D数据的扩展研究，以及视频协同分割方法的改进，这些工作均在VOS的评估框架下验证了其泛化能力与挑战性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集