YouTubeVIS-2021
收藏arXiv2025-05-19 更新2025-05-21 收录
下载链接:
https://arxiv.org/abs/2505.13174v1
下载链接
链接失效反馈官方服务:
资源简介:
YouTubeVIS-2021是一个用于视频实例分割的基准数据集,由伯尔尼大学计算机视觉小组创建。该数据集包含了大量的视频片段,并提供了高质量的伪标签,旨在帮助研究人员进行无监督的视频实例分割任务。数据集大小为2985个视频,包含了丰富的实例分割信息,用于训练和评估视频分割模型。YouTubeVIS-2021数据集的创建过程包括三个主要步骤:首先,使用光学流和图像特征生成伪实例掩码;其次,通过时间匹配构建包含高质量、一致伪实例掩码的短视频片段;最后,利用这些数据训练视频分割模型。该数据集在YouTubeVIS-2019、YouTubeVIS-2021、DAVIS-2017和DAVIS-2017 Motion等基准测试中取得了最先进的性能,适用于视频监控、自动驾驶和视频编辑等应用领域。
YouTubeVIS-2021 is a benchmark dataset for video instance segmentation, created by the Computer Vision Group of the University of Bern. This dataset contains a large number of video clips and provides high-quality pseudo-labels, aiming to assist researchers in unsupervised video instance segmentation tasks. It consists of 2985 videos with rich instance segmentation information, which is used for training and evaluating video segmentation models. The creation process of YouTubeVIS-2021 includes three main steps: first, generating pseudo-instance masks using optical flow and image features; second, constructing short video clips with high-quality and consistent pseudo-instance masks via temporal matching; third, training video segmentation models with this dataset. This dataset has achieved state-of-the-art performance on benchmark tests including YouTubeVIS-2019, YouTubeVIS-2021, DAVIS-2017 and DAVIS-2017 Motion, and is applicable to application fields such as video surveillance, autonomous driving and video editing.
提供机构:
伯尔尼大学计算机视觉小组
创建时间:
2025-05-19
原始信息汇总
数据集概述:FlowCut: Unsupervised Video Instance Segmentation via Temporal Mask Matching
基本信息
- 标题: FlowCut: Unsupervised Video Instance Segmentation via Temporal Mask Matching
- 作者: Alp Eren Sari, Paolo Favaro
- 提交日期: 2025年5月19日
- arXiv标识符: arXiv:2505.13174v1 [cs.CV]
- DOI: https://doi.org/10.48550/arXiv.2505.13174
研究领域
- 学科分类: 计算机视觉与模式识别 (Computer Vision and Pattern Recognition, cs.CV)
摘要
FlowCut是一种简单且高效的无监督视频实例分割方法,包含三个阶段框架,用于构建带有伪标签的高质量视频数据集。该方法首次尝试为无监督视频实例分割构建带有伪标签的视频数据集。具体步骤如下:
- 第一阶段: 通过利用图像和光流特征的亲和性生成伪实例掩码。
- 第二阶段: 通过在帧之间进行时间匹配,构建包含高质量、一致伪实例掩码的短视频片段。
- 第三阶段: 使用YouTubeVIS-2021视频数据集提取训练实例分割集,并训练视频分割模型。
FlowCut在YouTubeVIS-2019、YouTubeVIS-2021、DAVIS-2017和DAVIS-2017 Motion基准测试中达到了最先进的性能。
相关资源
搜集汇总
数据集介绍

构建方式
YouTubeVIS-2021数据集的构建采用了三阶段框架,旨在通过伪标签生成高质量的视频实例分割数据。首先,利用图像和光流特征的亲和力生成伪实例掩码;其次,通过跨帧时间匹配构建包含高质量、一致伪实例掩码的短视频片段;最后,基于YouTubeVIS-2021视频数据集提取训练实例分割集,并训练视频分割模型。该方法结合了光流和自监督表示的优势,显著提升了多实例分割的性能。
特点
YouTubeVIS-2021数据集的特点在于其完全无监督的构建方式,避免了昂贵且耗时的人工标注。数据集通过光流和自监督特征的融合,生成了高质量的伪标签,适用于复杂场景下的多实例分割任务。此外,数据集覆盖了多样化的视频内容,包括运动物体、静态背景和部分遮挡场景,为模型训练提供了丰富的样本。其伪标签生成和匹配算法确保了跨帧实例的一致性,显著提升了分割和跟踪的准确性。
使用方法
YouTubeVIS-2021数据集的使用方法主要包括三个步骤:首先,加载数据集中的视频帧和对应的伪实例掩码;其次,利用光流和自监督特征进行模型训练,优化分割和跟踪性能;最后,在测试集上评估模型的分割准确性和实例跟踪能力。数据集支持多种评估指标,如平均精度(AP)和平均召回率(AR),适用于无监督视频实例分割任务的性能验证。此外,数据集的伪标签生成流程可扩展至其他视频数据集,为相关研究提供了灵活的基准工具。
背景与挑战
背景概述
YouTubeVIS-2021数据集由伯尔尼大学计算机视觉小组于2021年推出,旨在推动视频实例分割领域的研究。该数据集作为YouTubeVIS系列的最新版本,包含2,985个高质量视频片段,涵盖多样化的场景和对象类别。视频实例分割作为计算机视觉的重要分支,在视频监控、自动驾驶和视频编辑等领域具有广泛应用。YouTubeVIS-2021通过提供精确的实例级标注,为研究者们探索复杂动态场景中的对象识别与跟踪问题奠定了坚实基础。该数据集的建立显著降低了视频实例分割研究的标注成本,促进了无监督和弱监督学习方法的发展。
当前挑战
YouTubeVIS-2021面临的挑战主要体现在两个方面:领域问题方面,视频实例分割需要同时解决对象检测、分割和跨帧跟踪的难题,特别是在处理快速运动、遮挡和小对象时性能显著下降;构建过程方面,数据集的创建需要处理海量视频帧的标注工作,确保跨帧实例标注的一致性,这对标注人员的专业素养和耐心提出了极高要求。此外,动态场景中复杂的光照变化、运动模糊等因素进一步增加了高质量标注的难度。
常用场景
经典使用场景
YouTubeVIS-2021数据集在计算机视觉领域被广泛用于视频实例分割任务,特别是在无监督学习场景下。该数据集通过提供高质量的视频序列和伪标签,为研究者提供了一个可靠的基准测试平台。其经典使用场景包括在复杂动态环境中对多个移动对象进行准确的检测、分割和跟踪,例如在自动驾驶和视频监控系统中,模型需要实时识别并跟踪多个独立运动的物体。
实际应用
在实际应用中,YouTubeVIS-2021数据集被用于开发智能视频分析系统,例如城市交通监控中的车辆与行人跟踪、体育赛事中的运动员动作分析以及影视制作中的自动化视频编辑。这些应用场景要求模型能够准确识别视频中的多个对象并保持跨帧的一致性,而该数据集通过其丰富的视频内容和伪标签为模型训练提供了有力支持。
衍生相关工作
YouTubeVIS-2021数据集衍生了一系列经典工作,例如FlowCut和VideoCutLER等无监督视频实例分割模型。这些工作通过结合光流信息和自监督学习,进一步提升了视频分割的性能。此外,该数据集还促进了多目标跟踪、视频语义分割等相关领域的研究,为计算机视觉社区提供了重要的技术参考和实验平台。
以上内容由遇见数据集搜集并总结生成



