ShuhuaiRen/TimeIT
收藏数据集卡片 for TimeIT
TimeIT 包含6个长期存在的与时间戳相关的视频任务,并整合了来自不同领域的12个特定数据集。
数据集描述
- 主页: https://huggingface.co/datasets/ShuhuaiRen/TimeIT
- 仓库: https://huggingface.co/datasets/ShuhuaiRen/TimeIT
- 论文: https://arxiv.org/abs/2312.02051
数据集统计
我们的数据集编译了多样化的与时间敏感的长视频理解任务,包括密集视频字幕、视频定位、视频摘要、视频亮点检测、步骤定位、转录语音生成。
指令统计
| 任务 | #指令 |
|---|---|
| 密集视频字幕 | 6 |
| 时间视频定位 | 6 |
| 视频摘要 | 6 |
| 视频亮点检测 | 6 |
| 步骤定位 | 6 |
| 转录语音生成 | 6 |
| 总计 | 36 |
任务统计
| 任务 | 描述 | #训练 |
|---|---|---|
| 密集视频字幕 | 检测给定视频中的一系列事件并输出相应的描述和时间戳 | 16,342 |
| 时间视频定位 | 根据自然语言查询预测视频中的时间边界,包括开始和结束时间 | 60,471 |
| 视频摘要 | 创建一组压缩的帧或剪辑以代表给定视频的最重要内容 | 75 |
| 视频亮点检测 | 识别可能不覆盖原始视频全范围的最令人兴奋、印象深刻或情感丰富的时刻 | 6,858 |
| 步骤定位 | 在未修剪的长视频中分割和描述重要步骤 | 9,488 |
| 转录语音生成 | 根据视频中的视觉信号预测语音内容及其相应的开始和结束时间戳 | 31,627 |
| 总计 | - | 124861 |
详细数据集统计
| 任务 | 数据集 | #训练 |
|---|---|---|
| 密集视频字幕 | ActivityNet Captions |
10,009 |
ViTT |
5,141 | |
YouCook2 |
1,192 | |
| 时间视频定位 | DiDeMo |
33,002 |
QuerYD |
14,602 | |
HiREST_grounding |
459 | |
Charades-STA |
12,408 | |
| 视频摘要 | TVSum |
50 |
SumMe |
25 | |
| 视频亮点检测 | QVHighlights |
6,858 |
| 步骤定位 | COIN |
9,029 |
HiREST_step |
459 | |
| 转录语音生成 | YT-Temporal |
31,627 |
数据集结构
数据加载
python from datasets import load_dataset
ds_name = "youcook2" # 更改数据集名称 dataset = load_dataset("ShuhuaiRen/TimeIT", ds_name)
数据分割
python from datasets import load_dataset
ds_name = "youcook2" # 更改数据集名称 dataset = load_dataset("ShuhuaiRen/TimeIT", ds_name) train_set = dataset["train"]
数据实例
python from datasets import load_dataset
ds_name = "youcook2" # 更改数据集名称 dataset = load_dataset("ShuhuaiRen/TimeIT", ds_name) train_set = dataset["train"]
for train_instance in train_set: question = train_instance["question"] # 字符串 answer = train_instance["answer"] # 字符串 video_path = train_instance["video_path"] # 字符串
数据字段
python import datasets
features = datasets.Features( { "video_path": datasets.Value("string"), "question": datasets.Value("string"), "answer": datasets.Value("string"), } )
数据集创建
源数据
| 任务 | 数据集 [引用] | 来源 |
|---|---|---|
| 密集视频字幕 | ActivityNet Captions[1] |
来源 |
ViTT [2] |
来源 | |
YouCook2 [3] |
来源 | |
| 时间视频定位 | DiDeMo [4] |
来源 |
QuerYD [5] |
来源 | |
HiREST_grounding [6] |
来源 | |
Charades-STA [7] |
来源 | |
| 视频摘要 | TVSum [8] |
来源 |
SumMe [9] |
来源 | |
| 视频亮点检测 | QVHighlights [10] |
来源 |
| 步骤定位 | COIN [11] |
来源 |
HiREST_step [6] |
来源 | |
| 转录语音生成 | YT-Temporal [12] |
来源 |
标注
标注过程
为了构建高质量的多模态指令数据集,我们将各种数据集重写为多模态到文本对话格式。标注过程包括四个步骤:
- (1) 阶段I: 指令编写: 为每个任务编写指令;
- (2) 阶段II: 数据格式统一: 将图像和文本结构化为统一模式;
- (3) 阶段III: 质量检查: 检查整个数据集的质量;
- (4) 阶段IV: 关键数据集翻译: 构建多语言数据集。
标注者
本工作的三位作者被聘为人工标注者,每位都是熟悉相关文献的研究生。
附加信息
许可信息
原始数据集的内容遵循其原始许可。对于具有未知/自定义许可的任务,用户可以检查原始项目或联系数据集所有者以获取详细的许可信息。
我们的标注指令数据在CC BY 4.0许可下发布。
引用信息
bibtex @article{Ren2023TimeChat, title={TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding}, author={Shuhuai Ren and Linli Yao and Shicheng Li and Xu Sun and Lu Hou}, journal={ArXiv}, year={2023}, volume={abs/2312.02051}, }




