Refer-YouTube-VOS

Name: Refer-YouTube-VOS
Creator: OpenDataLab
License: 暂无描述

OpenXLab2026-04-18 收录

下载链接：

https://openxlab.org.cn/datasets/OpenDataLab/Refer-YouTube-VOS

下载链接

链接失效反馈

官方服务：

资源简介：

以前的作品 [6, 10] 为视频构建了参考分割数据集。加夫里柳克等人。 [6] 用自然句子扩展了 A2D [33] 和 J-HMDB [9] 数据集；数据集专注于描述视频中出现的“演员”和“动作”，因此实例注释仅限于与执行突出“动作”的主要“演员”相对应的少数对象类别。 Khoreva 等人。 [10] 基于 DAVIS [25] 构建了一个数据集，但规模几乎不足以从头开始学习端到端模型 Youtube-VOS 有 4,519 个具有 94 个常见对象类别的高分辨率视频。每个视频在 30-fps 视频中每 5 帧都有像素级实例分割注释，它们的持续时间约为 3 到 6 秒。我们使用 Amazon Mechanical Turk 来注释引用表达式。为了确保注释的质量，我们在验证测试后选择了大约 50 个 turker。每个 turker 都有一对视频，原始视频和掩码覆盖的视频，其中突出显示了目标对象，并被要求提供 20 个单词内准确描述目标对象的判别句。我们收集了两种注释，它们描述了突出显示的对象（1）基于整个视频（全视频表达）和（2）仅使用视频的第一帧（第一帧表达）。在初始注释之后，我们对所有注释进行了验证和清理工作，如果仅使用语言表达式无法本地化对象，则删除对象。以下是验证后数据集的两种标注类型的统计和分析。全视频表达：Youtube-VOS 在训练和验证拆分中分别有 6,459 和 1,063 个唯一对象。其中，我们覆盖了 3,471 个视频中的 6,388 个唯一对象（6, 388/6, 459 = 98.9%），训练拆分中的 12,913 个表达式和 507 个视频中的 1,063 个唯一对象（1, 063/1, 063 = 100%），其中 2,096验证拆分中的表达式。平均而言，每个视频有 3.8 个语言表达，每个表达有 10.0 个单词。第一帧表达式：3,412 个视频中有 6,006 个唯一对象（6, 006 /6, 459 = 93.0%），训练拆分中有 10,897 个表达式，507 个视频中有 1,030 个唯一对象（1, 030/1, 063 = 96.9%）验证拆分中有 1,993 个表达式。注释对象的数量低于完整视频表达式的数量，因为仅使用第一帧会使注释更加模糊和不一致，并且我们在验证过程中丢弃了更多注释。平均而言，每个视频有 3.2 个语言表达，每个表达有 7.5 个单词。

提供机构：

OpenDataLab

创建时间：

2022-08-16

5,000+

优质数据集

54 个

任务类型

进入经典数据集