grounding-YT-dataset

Hugging Face2025-11-17 更新2025-11-18 收录

下载链接：

https://huggingface.co/datasets/CVML-TueAI/grounding-YT-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Grounding YouTube数据集是一个用于自监督空间时间定位的多动作视频数据集，包含了未剪辑视频、动作片段和动作帧，以及对应的注释信息。该数据集适用于根据叙述指令在未剪辑的多动作视频中进行定位任务。

创建时间：

2025-11-04

原始信息汇总

Grounding YouTube Dataset 概述

数据集基本信息

许可证: CC-BY-4.0
数据格式: WebDataset
相关论文: What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions

数据集配置

数据集提供三种不同形式的数据：

1. 完整视频 (videos)

包含未修剪的完整视频
包含整个视频内的标注信息
数据文件路径: videos/*.tar

2. 动作片段 (clips)

从视频中提取的动作片段
包含每个片段内的标注信息
数据文件路径: clips/*.tar

3. 动作帧 (frames)

从视频中提取的动作帧
包含帧级别的标注信息
数据文件路径: frames/*.tar

评估指标

点准确率: 预测点位于标注真实边界框内即视为正确预测
评估代码: https://huggingface.co/datasets/CVML-TueAI/grounding-YT-dataset/tree/main/evaluation

可视化工具

可视化脚本: https://huggingface.co/datasets/CVML-TueAI/grounding-YT-dataset/tree/main/visualization
可生成带有真实边界框和预测点的帧图像
需遵循random_preds.json文件中的预测JSON格式

引用信息

bibtex @InProceedings{Chen_2024_CVPR, author = {Chen, Brian and Shvetsova, Nina and Rouditchenko, Andrew and Kondermann, Daniel and Thomas, Samuel and Chang, Shih-Fu and Feris, Rogerio and Glass, James and Kuehne, Hilde}, title = {What When and Where? Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2024}, pages = {18419-18429} }

搜集汇总

数据集介绍

构建方式

在计算机视觉与时空定位交叉领域，grounding-YT-dataset的构建采用了多层次数据组织策略。该数据集基于未修剪的多动作YouTube视频，通过叙述性指令标注时空信息，并以WebDataset格式封装。原始视频被解构为三种形式：完整未修剪视频附带全局标注、从视频中提取的动作片段及其局部标注、以及关键帧与对应空间标注。这种分层结构为研究自监督时空定位提供了细粒度的数据支撑，同时确保了原始视频语义的完整性。

特点

该数据集的核心特点在于其多模态时空标注体系与未修剪视频的天然复杂性。每个样本融合了视觉序列、文本指令和边界框标注，支持对“何时何地执行何种动作”的联合推理。数据以分块压缩格式存储，既保障了大规模视频数据的高效读取，又通过标准化元数据结构实现了视觉内容与语义描述的精确对齐。其评估体系引入点态准确度指标，要求预测坐标必须落入真实边界框内，为时空定位任务提供了严谨的量化基准。

使用方法

使用该数据集需依托WebDataset数据加载框架，通过HuggingFace Hub接口获取分块数据流。典型流程包括配置身份认证、解析二进制视频流与JSON元数据，并利用PyAV库将视频字节解码为张量序列。数据管道支持随机混洗与并行加载，可直接接入PyTorch训练流程。评估阶段需遵循官方提供的点坐标验证规范，可视化工具则能生成带预测标记的帧序列图像，辅助模型输出分析。

背景与挑战

背景概述

时空定位作为计算机视觉领域的前沿课题，致力于解决视频内容与语言指令间的语义对齐问题。Grounding YouTube Dataset由CVML-TueAI团队于2024年构建，其核心研究目标在于通过自监督学习范式，在未经剪辑的多动作视频中实现基于叙述指令的时空定位。该数据集通过YouTube平台采集的未修剪视频及其标注，为跨模态理解研究提供了重要支撑，推动了视频语言交互模型在复杂场景下的应用发展。

当前挑战

该数据集针对视频时空定位任务面临多重挑战：未修剪视频中多动作时序边界的模糊性增加了定位难度，语言指令与视觉实体间的语义鸿沟要求模型具备细粒度跨模态对齐能力。构建过程中需克服大规模视频标注的成本瓶颈，通过叙述指令自动生成时空标注的技术复杂性，以及保证视频片段、动作帧与标注数据三者间一致性的工程挑战。

常用场景

经典使用场景

在计算机视觉领域，Grounding YouTube Dataset 为自监督时空定位任务提供了关键支持。该数据集通过未剪辑的多动作视频和叙述性指令，使模型能够学习在复杂场景中识别特定动作发生的时空位置。研究人员通常利用其视频片段和帧级注释，训练神经网络理解语言指令与视觉内容之间的对应关系，推动视觉语言交互研究的发展。

解决学术问题

该数据集有效解决了视频理解中的时空定位难题，特别是针对未剪辑视频中多动作序列的精确标注问题。通过提供完整的视频流、动作片段和关键帧三个层次的标注数据，它使研究者能够开发新型算法，在无需人工标注的情况下实现动作的时空定位。这项工作显著降低了视频标注成本，为自监督学习在视频分析领域的应用开辟了新途径。

衍生相关工作

该数据集催生了一系列重要的衍生研究，包括基于自监督学习的视频时空定位框架、多模态表示学习方法以及跨模态对齐算法。相关研究通过改进该数据集提供的基准评估方法，推动了点精度评估标准的发展，并在CVPR等顶级会议上产生了多篇具有影响力的论文，为视频理解领域建立了新的研究范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集