five

YouTubeVIS-2021|视频实例分割数据集|计算机视觉数据集

收藏
arXiv2025-05-19 更新2025-05-21 收录
视频实例分割
计算机视觉
下载链接:
https://arxiv.org/abs/2505.13174v1
下载链接
链接失效反馈
资源简介:
YouTubeVIS-2021是一个用于视频实例分割的基准数据集,由伯尔尼大学计算机视觉小组创建。该数据集包含了大量的视频片段,并提供了高质量的伪标签,旨在帮助研究人员进行无监督的视频实例分割任务。数据集大小为2985个视频,包含了丰富的实例分割信息,用于训练和评估视频分割模型。YouTubeVIS-2021数据集的创建过程包括三个主要步骤:首先,使用光学流和图像特征生成伪实例掩码;其次,通过时间匹配构建包含高质量、一致伪实例掩码的短视频片段;最后,利用这些数据训练视频分割模型。该数据集在YouTubeVIS-2019、YouTubeVIS-2021、DAVIS-2017和DAVIS-2017 Motion等基准测试中取得了最先进的性能,适用于视频监控、自动驾驶和视频编辑等应用领域。
提供机构:
伯尔尼大学计算机视觉小组
创建时间:
2025-05-19
原始信息汇总

数据集概述:FlowCut: Unsupervised Video Instance Segmentation via Temporal Mask Matching

基本信息

  • 标题: FlowCut: Unsupervised Video Instance Segmentation via Temporal Mask Matching
  • 作者: Alp Eren Sari, Paolo Favaro
  • 提交日期: 2025年5月19日
  • arXiv标识符: arXiv:2505.13174v1 [cs.CV]
  • DOI: https://doi.org/10.48550/arXiv.2505.13174

研究领域

  • 学科分类: 计算机视觉与模式识别 (Computer Vision and Pattern Recognition, cs.CV)

摘要

FlowCut是一种简单且高效的无监督视频实例分割方法,包含三个阶段框架,用于构建带有伪标签的高质量视频数据集。该方法首次尝试为无监督视频实例分割构建带有伪标签的视频数据集。具体步骤如下:

  1. 第一阶段: 通过利用图像和光流特征的亲和性生成伪实例掩码。
  2. 第二阶段: 通过在帧之间进行时间匹配,构建包含高质量、一致伪实例掩码的短视频片段。
  3. 第三阶段: 使用YouTubeVIS-2021视频数据集提取训练实例分割集,并训练视频分割模型。

FlowCut在YouTubeVIS-2019、YouTubeVIS-2021、DAVIS-2017和DAVIS-2017 Motion基准测试中达到了最先进的性能。

相关资源

AI搜集汇总
数据集介绍
main_image_url
构建方式
YouTubeVIS-2021数据集的构建采用了三阶段框架,旨在通过伪标签生成高质量的视频实例分割数据。首先,利用图像和光流特征的亲和力生成伪实例掩码;其次,通过跨帧时间匹配构建包含高质量、一致伪实例掩码的短视频片段;最后,基于YouTubeVIS-2021视频数据集提取训练实例分割集,并训练视频分割模型。该方法结合了光流和自监督表示的优势,显著提升了多实例分割的性能。
特点
YouTubeVIS-2021数据集的特点在于其完全无监督的构建方式,避免了昂贵且耗时的人工标注。数据集通过光流和自监督特征的融合,生成了高质量的伪标签,适用于复杂场景下的多实例分割任务。此外,数据集覆盖了多样化的视频内容,包括运动物体、静态背景和部分遮挡场景,为模型训练提供了丰富的样本。其伪标签生成和匹配算法确保了跨帧实例的一致性,显著提升了分割和跟踪的准确性。
使用方法
YouTubeVIS-2021数据集的使用方法主要包括三个步骤:首先,加载数据集中的视频帧和对应的伪实例掩码;其次,利用光流和自监督特征进行模型训练,优化分割和跟踪性能;最后,在测试集上评估模型的分割准确性和实例跟踪能力。数据集支持多种评估指标,如平均精度(AP)和平均召回率(AR),适用于无监督视频实例分割任务的性能验证。此外,数据集的伪标签生成流程可扩展至其他视频数据集,为相关研究提供了灵活的基准工具。
背景与挑战
背景概述
YouTubeVIS-2021数据集由伯尔尼大学计算机视觉小组于2021年推出,旨在推动视频实例分割领域的研究。该数据集作为YouTubeVIS系列的最新版本,包含2,985个高质量视频片段,涵盖多样化的场景和对象类别。视频实例分割作为计算机视觉的重要分支,在视频监控、自动驾驶和视频编辑等领域具有广泛应用。YouTubeVIS-2021通过提供精确的实例级标注,为研究者们探索复杂动态场景中的对象识别与跟踪问题奠定了坚实基础。该数据集的建立显著降低了视频实例分割研究的标注成本,促进了无监督和弱监督学习方法的发展。
当前挑战
YouTubeVIS-2021面临的挑战主要体现在两个方面:领域问题方面,视频实例分割需要同时解决对象检测、分割和跨帧跟踪的难题,特别是在处理快速运动、遮挡和小对象时性能显著下降;构建过程方面,数据集的创建需要处理海量视频帧的标注工作,确保跨帧实例标注的一致性,这对标注人员的专业素养和耐心提出了极高要求。此外,动态场景中复杂的光照变化、运动模糊等因素进一步增加了高质量标注的难度。
常用场景
经典使用场景
YouTubeVIS-2021数据集在计算机视觉领域被广泛用于视频实例分割任务,特别是在无监督学习场景下。该数据集通过提供高质量的视频序列和伪标签,为研究者提供了一个可靠的基准测试平台。其经典使用场景包括在复杂动态环境中对多个移动对象进行准确的检测、分割和跟踪,例如在自动驾驶和视频监控系统中,模型需要实时识别并跟踪多个独立运动的物体。
实际应用
在实际应用中,YouTubeVIS-2021数据集被用于开发智能视频分析系统,例如城市交通监控中的车辆与行人跟踪、体育赛事中的运动员动作分析以及影视制作中的自动化视频编辑。这些应用场景要求模型能够准确识别视频中的多个对象并保持跨帧的一致性,而该数据集通过其丰富的视频内容和伪标签为模型训练提供了有力支持。
衍生相关工作
YouTubeVIS-2021数据集衍生了一系列经典工作,例如FlowCut和VideoCutLER等无监督视频实例分割模型。这些工作通过结合光流信息和自监督学习,进一步提升了视频分割的性能。此外,该数据集还促进了多目标跟踪、视频语义分割等相关领域的研究,为计算机视觉社区提供了重要的技术参考和实验平台。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

VQA

我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。

OpenDataLab 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Arizona Cities by Population

A dataset listing Arizona cities by population for 2024.

www.arizona-demographics.com 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

中亚主要国家的原油资源的储量、产量、消费量及其占世界比重(1985-2016)

中亚五国中,石油资源主要分布在哈萨克斯坦、乌兹别克斯坦、土库曼斯坦三个国家。根据BP世界能源统计年鉴,经整理、抽取、计算和汇总后,形成中亚主要国家(哈萨克斯坦、乌兹别克斯坦、土库曼斯坦)原油资源的储量、产量、消费量及其占世界比重的统计表。 主要指标包括: (1)储量,1991-2016年,单位:百万吨 (2)产量,1985-2016年,单位:百万吨 (3)储产比,1991-2016年,单位:百万吨 (4)消费量,1985-2016年,单位:百万吨 (5)产消差额,1985-2016年,单位:百万吨 此外,以上数据均包括中亚地区的哈萨克斯坦、乌兹别克斯坦、土库曼斯坦、三国汇总以及世界总量的情况。

地球大数据科学工程 收录