five

Refer-YouTube-VOS

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Refer-YouTube-VOS
下载链接
链接失效反馈
官方服务:
资源简介:
以前的作品 [6, 10] 为视频构建了参考分割数据集。加夫里柳克等人。 [6] 用自然句子扩展了 A2D [33] 和 J-HMDB [9] 数据集;数据集专注于描述视频中出现的“演员”和“动作”,因此实例注释仅限于与执行突出“动作”的主要“演员”相对应的少数对象类别。 Khoreva 等人。 [10] 基于 DAVIS [25] 构建了一个数据集,但规模几乎不足以从头开始学习端到端模型 Youtube-VOS 有 4,519 个具有 94 个常见对象类别的高分辨率视频。每个视频在 30-fps 视频中每 5 帧都有像素级实例分割注释,它们的持续时间约为 3 到 6 秒。我们使用 Amazon Mechanical Turk 来注释引用表达式。为了确保注释的质量,我们在验证测试后选择了大约 50 个 turker。每个 turker 都有一对视频,原始视频和掩码覆盖的视频,其中突出显示了目标对象,并被要求提供 20 个单词内准确描述目标对象的判别句。我们收集了两种注释,它们描述了突出显示的对象(1)基于整个视频(全视频表达)和(2)仅使用视频的第一帧(第一帧表达)。在初始注释之后,我们对所有注释进行了验证和清理工作,如果仅使用语言表达式无法本地化对象,则删除对象。以下是验证后数据集的两种标注类型的统计和分析。全视频表达:Youtube-VOS 在训练和验证拆分中分别有 6,459 和 1,063 个唯一对象。其中,我们覆盖了 3,471 个视频中的 6,388 个唯一对象(6, 388/6, 459 = 98.9%),训练拆分中的 12,913 个表达式和 507 个视频中的 1,063 个唯一对象(1, 063/1, 063 = 100%),其中 2,096验证拆分中的表达式。平均而言,每个视频有 3.8 个语言表达,每个表达有 10.0 个单词。第一帧表达式:3,412 个视频中有 6,006 个唯一对象(6, 006 /6, 459 = 93.0%),训练拆分中有 10,897 个表达式,507 个视频中有 1,030 个唯一对象(1, 030/1, 063 = 96.9%)验证拆分中有 1,993 个表达式。注释对象的数量低于完整视频表达式的数量,因为仅使用第一帧会使注释更加模糊和不一致,并且我们在验证过程中丢弃了更多注释。平均而言,每个视频有 3.2 个语言表达,每个表达有 7.5 个单词。
提供机构:
OpenDataLab
创建时间:
2022-08-16
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作