ShuhuaiRen/TimeIT

Name: ShuhuaiRen/TimeIT
Creator: ShuhuaiRen
Published: 2024-02-22 10:03:43
License: 暂无描述

Hugging Face2024-02-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ShuhuaiRen/TimeIT

下载链接

链接失效反馈

官方服务：

资源简介：

TimeIT数据集包含6个与时间戳相关的视频任务，并整合了来自不同领域的12个具体数据集。主要任务包括密集视频字幕生成、时间视频定位、视频摘要、视频亮点检测、步骤定位和转录语音生成。每个任务都有详细的统计数据和数据集来源。数据集的创建过程包括指令编写、数据格式统一、质量检查和关键数据集翻译四个步骤。数据集的使用需要HuggingFace登录，并提供了数据加载和实例的代码示例。数据集的许可证信息、引用信息和贡献者也都有详细说明。

提供机构：

ShuhuaiRen

原始信息汇总

数据集卡片 for TimeIT

TimeIT 包含6个长期存在的与时间戳相关的视频任务，并整合了来自不同领域的12个特定数据集。

数据集描述

主页: https://huggingface.co/datasets/ShuhuaiRen/TimeIT
仓库: https://huggingface.co/datasets/ShuhuaiRen/TimeIT
论文: https://arxiv.org/abs/2312.02051

数据集统计

我们的数据集编译了多样化的与时间敏感的长视频理解任务，包括密集视频字幕、视频定位、视频摘要、视频亮点检测、步骤定位、转录语音生成。

指令统计

任务	#指令
密集视频字幕	6
时间视频定位	6
视频摘要	6
视频亮点检测	6
步骤定位	6
转录语音生成	6
总计	36

任务统计

任务	描述	#训练
密集视频字幕	检测给定视频中的一系列事件并输出相应的描述和时间戳	16,342
时间视频定位	根据自然语言查询预测视频中的时间边界，包括开始和结束时间	60,471
视频摘要	创建一组压缩的帧或剪辑以代表给定视频的最重要内容	75
视频亮点检测	识别可能不覆盖原始视频全范围的最令人兴奋、印象深刻或情感丰富的时刻	6,858
步骤定位	在未修剪的长视频中分割和描述重要步骤	9,488
转录语音生成	根据视频中的视觉信号预测语音内容及其相应的开始和结束时间戳	31,627
总计	-	124861

详细数据集统计

任务	数据集	#训练
密集视频字幕	`ActivityNet Captions`	10,009
	`ViTT`	5,141
	`YouCook2`	1,192
时间视频定位	`DiDeMo`	33,002
	`QuerYD`	14,602
	`HiREST_grounding`	459
	`Charades-STA`	12,408
视频摘要	`TVSum`	50
	`SumMe`	25
视频亮点检测	`QVHighlights`	6,858
步骤定位	`COIN`	9,029
	`HiREST_step`	459
转录语音生成	`YT-Temporal`	31,627

数据集结构

数据加载

python from datasets import load_dataset

ds_name = "youcook2" # 更改数据集名称 dataset = load_dataset("ShuhuaiRen/TimeIT", ds_name)

数据分割

python from datasets import load_dataset

ds_name = "youcook2" # 更改数据集名称 dataset = load_dataset("ShuhuaiRen/TimeIT", ds_name) train_set = dataset["train"]

数据实例

python from datasets import load_dataset

ds_name = "youcook2" # 更改数据集名称 dataset = load_dataset("ShuhuaiRen/TimeIT", ds_name) train_set = dataset["train"]

for train_instance in train_set: question = train_instance["question"] # 字符串 answer = train_instance["answer"] # 字符串 video_path = train_instance["video_path"] # 字符串

数据字段

python import datasets

features = datasets.Features( { "video_path": datasets.Value("string"), "question": datasets.Value("string"), "answer": datasets.Value("string"), } )

数据集创建

源数据

任务	数据集 [引用]	来源
密集视频字幕	`ActivityNet Captions`[1]	来源
	`ViTT` [2]	来源
	`YouCook2` [3]	来源
时间视频定位	`DiDeMo` [4]	来源
	`QuerYD` [5]	来源
	`HiREST_grounding` [6]	来源
	`Charades-STA` [7]	来源
视频摘要	`TVSum` [8]	来源
	`SumMe` [9]	来源
视频亮点检测	`QVHighlights` [10]	来源
步骤定位	`COIN` [11]	来源
	`HiREST_step` [6]	来源
转录语音生成	`YT-Temporal` [12]	来源

标注

标注过程

为了构建高质量的多模态指令数据集，我们将各种数据集重写为多模态到文本对话格式。标注过程包括四个步骤：

(1) 阶段I: 指令编写: 为每个任务编写指令；
(2) 阶段II: 数据格式统一: 将图像和文本结构化为统一模式；
(3) 阶段III: 质量检查: 检查整个数据集的质量；
(4) 阶段IV: 关键数据集翻译: 构建多语言数据集。

标注者

本工作的三位作者被聘为人工标注者，每位都是熟悉相关文献的研究生。

附加信息

许可信息

原始数据集的内容遵循其原始许可。对于具有未知/自定义许可的任务，用户可以检查原始项目或联系数据集所有者以获取详细的许可信息。

我们的标注指令数据在CC BY 4.0许可下发布。

引用信息

bibtex @article{Ren2023TimeChat, title={TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding}, author={Shuhuai Ren and Linli Yao and Shicheng Li and Xu Sun and Lu Hou}, journal={ArXiv}, year={2023}, volume={abs/2312.02051}, }

搜集汇总

数据集介绍

构建方式

在视频理解领域，构建高质量的多模态指令数据集对模型性能至关重要。TimeIT数据集通过系统化的四阶段流程精心构建：首先进行任务指令设计，为六类时间敏感任务撰写标准化指令；随后统一数据格式，将来自12个源数据集的异构视频文本信息转化为统一的多模态对话结构；接着执行质量校验，由熟悉领域的研究生进行人工审核；最终完成关键数据集的多语言转换。这一严谨流程确保了数据的一致性与可靠性。

特点

作为视频时序理解领域的综合性资源，TimeIT展现出鲜明的结构特征。其覆盖六类核心时序任务，涵盖密集视频描述、时序视频定位、视频摘要等多样化场景，整合了ActivityNet Captions、DiDeMo、COIN等12个权威子数据集，形成包含124,861条训练样本的丰富语料。数据集采用统一的多模态对话格式，将视频路径、自然语言问题与结构化答案有机结合，为模型提供了时序推理与跨模态对齐的系统训练框架。

使用方法

在实践应用中，TimeIT为研究者提供了便捷的访问接口。通过HuggingFace的datasets库，用户可灵活加载特定子数据集，如使用load_dataset('ShuhuaiRen/TimeIT', 'youcook2')调用烹饪视频数据。数据集采用标准分割结构，每条实例包含视频路径、问题文本与答案三个核心字段，支持直接迭代访问。这种设计使得该资源能够无缝集成到现有训练流程，为开发时序敏感的通用视频智能体提供标准化测试平台。

背景与挑战

背景概述

随着多模态人工智能的蓬勃发展，长视频理解因其蕴含的丰富时序与语义信息而成为研究前沿。TimeIT数据集由Shuhuai Ren等人于2023年构建，旨在整合视频领域内六大时间敏感任务，涵盖密集视频描述、时序视频定位、视频摘要等核心方向。该数据集汇集了来自ActivityNet Captions、DiDeMo、COIN等12个知名子集的逾12万条指令数据，为训练能够精准理解长视频时序结构的大语言模型提供了关键资源。其诞生标志着视频理解从单一任务向统一、通用化智能体开发的重要演进，对推动具身智能与跨模态推理研究具有深远影响。

当前挑战

TimeIT数据集致力于解决长视频理解中时序信息精准建模的固有难题，包括如何在冗长视频流中准确定位事件边界、关联跨模态语义以及生成连贯的时序描述。在构建过程中，研究团队面临多重挑战：其一，需将异构的原始数据集统一转化为多模态到文本的对话格式，涉及复杂的指令重写与结构化对齐；其二，数据质量把控要求严格，需通过多阶段人工校验确保指令的准确性与一致性；其三，部分源数据集的许可协议不明确，为合规使用带来潜在风险。这些挑战共同凸显了构建大规模、高质量视频指令数据集的复杂性与必要性。

常用场景

经典使用场景

在视频理解领域，TimeIT数据集通过整合六个长期存在的时序相关任务，为研究者提供了一个统一的基准平台。该数据集特别适用于训练和评估能够处理长视频内容的多模态大语言模型，例如在密集视频描述任务中，模型需要识别视频中的多个事件并生成对应的时间戳和描述，这要求模型具备对视频时序结构的深刻理解。通过将不同领域的12个具体数据集转化为统一的指令调优格式，TimeIT促进了模型在复杂时序推理能力上的系统性提升。

解决学术问题

TimeIT数据集主要解决了视频理解中时序敏感任务的标准化与集成问题。以往研究往往针对单一任务使用孤立的数据集，缺乏跨任务的统一评估框架，这限制了模型泛化能力的全面考察。该数据集通过融合密集视频描述、视频定位、视频摘要等六大核心任务，为学术界提供了衡量模型在长视频中理解时序动态、关联视觉与语言信息的综合能力基准。其意义在于推动了多模态大语言模型向更精细的时间感知方向发展，为构建通用的视频智能体奠定了数据基础。

衍生相关工作

围绕TimeIT数据集，已衍生出多项经典研究工作，其中最突出的是与其配套提出的TimeChat模型。该模型作为一个时间敏感的多模态大语言模型，专门针对长视频理解设计，充分利用了TimeIT的指令数据进行训练。此外，数据集整合的原始来源如ActivityNet Captions、DiDeMo和COIN等，本身也是视频描述、时序定位和指令分析领域的奠基性资源。这些工作共同推动了视频理解从单一任务向统一、通用化智能体的演进，形成了从数据到模型的完整研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集