ViTT (Video Timeline Tags)
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/ViTT
下载链接
链接失效反馈官方服务:
资源简介:
ViTT 数据集由人工制作的 8,169 个视频的片段级注释组成。其中,5840 个视频被注释一次,其余视频被注释两次或更多。共发布了 12461 组注解。数据集中的视频来自 Youtube-8M 数据集。
注释具有以下格式:
{
"id": "FmTp",
“注释”:[
{
“时间戳”:260,
“标签”:“开幕”
},
{
“时间戳”:16000,
"tag": "展示技巧"
},
{
“时间戳”:23990,
"tag": "显示脚部定位"
},
{
“时间戳”:55530,
"tag": "演示跨界"
},
{
“时间戳”:114100,
“标签”:“关闭”
}
]
}
The ViTT dataset consists of segment-level annotations for 8,169 manually curated videos. Of these, 5,840 videos are annotated once, while the remaining videos are annotated two or more times. A total of 12,461 annotation sets have been released. The videos in the dataset are sourced from the Youtube-8M dataset.
The annotations follow the format:
{
"id": "FmTp",
"annotations": [
{
"timestamp": 260,
"label": "opening"
},
{
"timestamp": 16000,
"label": "demonstration technique"
},
{
"timestamp": 23990,
"label": "show foot positioning"
},
{
"timestamp": 55530,
"label": "demonstrate crossover"
},
{
"timestamp": 114100,
"label": "closing"
}
]
}
提供机构:
OpenDataLab
创建时间:
2022-05-24
搜集汇总
数据集介绍

背景与挑战
背景概述
ViTT数据集是一个用于视频理解任务的标注数据集,包含8,169个来自YouTube-8M的视频,提供了12,461组片段级注释,每个注释由时间戳和标签组成,用于描述视频中的具体事件或行为。该数据集由Google、Mila和蒙特利尔大学于2020年发布,主要用于支持密集视频描述等多媒体预训练研究。
以上内容由遇见数据集搜集并总结生成



