iGround

Hugging Face2025-11-15 更新2025-11-16 收录

下载链接：

https://huggingface.co/datasets/ekazakos/iGround

下载链接

链接失效反馈

官方服务：

资源简介：

iGround是一个人工注释的数据集，用于视频文本到文本的任务，包含处理过的数据和原始数据，分为训练集、验证集和测试集。它包含视频标注和视频定位的标签，适用于 grounded video caption generation的大规模预训练。

创建时间：

2025-11-08

原始信息汇总

iGround 数据集概述

数据集基本信息

许可证: CC-BY-NC-SA-4.0
任务类别: 视频文本到文本
语言: 英语
标签: 文本生成、视频字幕生成、视频定位
规模: 1K<n<10K

数据集配置

处理数据

配置名称: data_processed
数据文件:
- 训练集: iGround_train_set_processed.jsonl
- 验证集: iGround_val_set_processed.jsonl
- 测试集: iGround_test_set_processed.jsonl

原始数据

配置名称: data_raw
数据文件:
- 训练集: iGround_train_set_raw.jsonl
- 验证集: iGround_val_set_raw.jsonl
- 测试集: iGround_test_set_raw.jsonl

键值数据

配置名称: keys
数据文件:
- 训练集: iGround_train_set_keys.jsonl
- 验证集: iGround_val_set_keys.jsonl

数据加载方式

使用Hugging Face Datasets库加载数据集： python from datasets import load_dataset repo = "ekazakos/iGround"

视频下载说明

通过填写Google表单获取视频链接
使用提供的脚本下载视频
下载链接有效期为7天

引用信息

如需使用本数据集，请引用： bibtex @inproceedings{kazakos2025grove, title = {Large-scale Pre-training for Grounded Video Caption Generation}, author = {Evangelos Kazakos and Cordelia Schmid and Josef Sivic}, booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, year = {2025} }

搜集汇总

数据集介绍

构建方式

在视频文本生成领域，iGround数据集通过人工标注构建而成，其原始数据保留了视频中同一物体类型的多个实例及其逐帧边界框。数据经过处理后，将同一片段中相同物体类型的多个实例合并，采用边界框的并集形成单一标注，从而提升标注的简洁性与一致性。该数据集遵循严格的学术规范，确保标注质量符合计算机视觉研究的高标准要求。

特点

iGround数据集具备多模态特性，专注于视频文本生成与视频定位任务，涵盖英语语言内容。数据集规模介于1千至1万样本之间，提供原始与处理后的双版本配置，支持训练、验证与测试的标准划分。其独特之处在于同时提供物体实例的细粒度边界框信息与整体标注，为模型训练提供了丰富的时空上下文信息，适用于复杂的视频理解研究。

使用方法

研究者可通过HuggingFace数据集库直接加载iGround的不同配置与划分，包括处理数据、原始数据及对应视频标识。视频文件需通过官方表单申请链接，并利用提供的脚本在七天内完成下载，确保数据完整性。该数据集专为支持视频描述生成模型的训练与评估设计，使用时需遵循CC-BY-NC-SA-4.0许可协议并引用相关论文。

背景与挑战

背景概述

随着多模态人工智能研究的深入，视频理解与生成任务逐渐成为计算机视觉领域的前沿方向。iGround数据集作为2025年ICCV会议论文《大规模预训练在基于视频的定位描述生成中的应用》的核心贡献，由Evangelos Kazakos等学者联合构建，专注于视频文本生成与视觉定位的交叉研究。该数据集通过精细标注视频中物体的时空边界框及其语义描述，旨在推动视频定位描述生成技术的发展，为多模态预训练模型提供关键支撑。

当前挑战

视频定位描述生成任务面临双重挑战：在领域问题层面，模型需同时解决视频中动态物体的精确时空定位与自然语言描述的生成，要求具备跨模态对齐与复杂场景推理能力；在构建过程中，数据标注涉及大量视频帧中物体的边界框标注与描述文本的匹配，标注一致性维护与大规模视频数据处理成为主要难点。

常用场景

经典使用场景

在视频理解与多模态学习领域，iGround数据集作为大规模标注资源，其经典应用场景聚焦于视频文本生成任务。该数据集通过提供精确的时间边界与空间定位信息，支持模型学习视频内容与自然语言描述之间的细粒度对齐。研究者常利用其处理后的标注数据训练端到端系统，实现从视频帧序列生成连贯且具有时空指向性的描述文本，为视觉语言建模奠定坚实基础。

解决学术问题

iGround数据集有效解决了视频语义理解中的关键学术挑战，特别是跨模态对齐与细粒度定位问题。通过提供逐帧物体边界框与文本描述的关联标注，该数据集助力突破视频描述生成中时空一致性建模的瓶颈。其标注体系为探索视频内容的结构化表征、多实体关系推理以及动态场景理解提供了重要实验依据，显著推动了视频语义解析领域的理论进展与方法创新。

衍生相关工作

基于iGround数据集衍生的经典研究包括GROVE预训练框架，该工作首次实现了大规模视频文本生成与定位任务的联合学习。后续研究在此基础上发展了多模态Transformer架构的变体，探索了时序感知的注意力机制与跨模态对比学习策略。这些工作共同构建了视频语义理解的技术体系，催生了如动态场景图生成、视觉语言导航等新兴研究方向，持续拓展多模态智能的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集