five

ViTT (Video Timeline Tags)

收藏
OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/ViTT
下载链接
链接失效反馈
官方服务:
资源简介:
ViTT 数据集由人工制作的 8,169 个视频的片段级注释组成。其中,5840 个视频被注释一次,其余视频被注释两次或更多。共发布了 12461 组注解。数据集中的视频来自 Youtube-8M 数据集。 注释具有以下格式: { "id": "FmTp", “注释”:[ { “时间戳”:260, “标签”:“开幕” }, { “时间戳”:16000, "tag": "展示技巧" }, { “时间戳”:23990, "tag": "显示脚部定位" }, { “时间戳”:55530, "tag": "演示跨界" }, { “时间戳”:114100, “标签”:“关闭” } ] }

The ViTT dataset consists of segment-level annotations for 8,169 manually curated videos. Of these, 5,840 videos are annotated once, while the remaining videos are annotated two or more times. A total of 12,461 annotation sets have been released. The videos in the dataset are sourced from the Youtube-8M dataset. The annotations follow the format: { "id": "FmTp", "annotations": [ { "timestamp": 260, "label": "opening" }, { "timestamp": 16000, "label": "demonstration technique" }, { "timestamp": 23990, "label": "show foot positioning" }, { "timestamp": 55530, "label": "demonstrate crossover" }, { "timestamp": 114100, "label": "closing" } ] }
提供机构:
OpenDataLab
创建时间:
2022-05-24
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
ViTT数据集是一个用于视频理解任务的标注数据集,包含8,169个来自YouTube-8M的视频,提供了12,461组片段级注释,每个注释由时间戳和标签组成,用于描述视频中的具体事件或行为。该数据集由Google、Mila和蒙特利尔大学于2020年发布,主要用于支持密集视频描述等多媒体预训练研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作