mhan/Shot2Story-134K

Name: mhan/Shot2Story-134K
Creator: mhan
Published: 2024-04-24 10:48:42
License: 暂无描述

Hugging Face2024-04-24 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/mhan/Shot2Story-134K

下载链接

链接失效反馈

官方服务：

资源简介：

Shot2Story数据集是一个用于多镜头视频理解的新基准，包含134k个视频的详细长摘要（人类注释+GPTV生成）和188k个视频镜头的镜头字幕（人类注释）。数据集分为多镜头和单镜头配置，每个配置包含不同的训练、测试和验证集。数据集的注释格式为JSON，每个视频作为一个JSON对象，包含视频文件名、唯一视频ID、视频摘要、全视频ASR、视频镜头名称数组、每个镜头的旁白字幕数组、每个镜头的视频字幕数组和每个镜头的ASR输出数组。数据集不提供原始视频，但提供了访问信息和下载脚本。数据集的文本注释遵循CC BY-NC-SA 4.0许可证，仅用于非商业研究。

提供机构：

mhan

原始信息汇总

数据集概述

数据集名称

名称: Shot2Story

数据集内容

类型: 视频-文本数据集
规模: 包含134k视频数据
详细内容:
- 提供134k视频的详细长摘要（人类标注+GPTV生成）
- 提供188k视频镜头的镜头描述（人类标注）

数据集配置

多重射击配置 (multi-shot)
- 数据文件:
  - 43k_human_train.json
  - 90k_gptv_train.json
  - 134k_full_train.json
  - 20k_test.json
  - 20k_val.json
单次射击配置 (single-shot)
- 数据文件:
  - 43k_human_shot_train.json
  - 20k_human_shot_test.json
  - 20k_human_shot_val.json

数据集任务类别

总结
视觉问答
问答

数据集语言

英语

数据集规模类别

100K<n<1M

数据集许可证

许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
使用限制: 仅限非商业研究使用

数据集联系信息

联系人: Mingfei Han
联系方式: hmf282@gmail.com

数据集引用信息

论文: 2312.10300
引用格式:

@misc{han2023shot2story20k, title={Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos}, author={Mingfei Han and Linjie Yang and Xiaojun Chang and Heng Wang}, year={2023}, eprint={2312.10300}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

mhan/Shot2Story-134K数据集的构建，是基于多镜头视频的理解任务，涵盖了详细的长篇总结（包括人工注释和GPTV生成的文本）以及针对188k视频镜头的人工注释视频字幕和旁白字幕。数据集由43k人工注释的训练集、90k由GPTV生成的训练集、以及包含548k视频镜头的134k完整训练集构成，同时还包括了针对测试和验证视频的手工注释的多镜头问答对。

特点

该数据集的特点在于其规模宏大，包含了134k多镜头视频的详细文本描述，以及超过548k的视频镜头。它不仅提供了人工注释的总结，还包含了由GPTV生成的文本总结，为研究多镜头视频理解提供了全面的数据支持。此外，数据集还提供了针对测试和验证视频的多镜头问答对，有助于评估模型在多镜头视频理解方面的性能。

使用方法

使用mhan/Shot2Story-134K数据集时，用户需先从OneDrive或HuggingFace下载多镜头视频。数据集的注释以JSON格式存储，每个视频对象都包含了视频文件名、唯一视频ID、视频总结、全视频ASR输出、视频镜头名称、每个镜头的旁白字幕和视频字幕等信息。用户可以使用提供的Python脚本下载视频，并使用处理脚本准备视频片段和单镜头视频。在使用数据集时，需遵守Creative Commons Attribution-NonCommercial-ShareAlike 4.0国际许可协议，仅限非商业研究用途。

背景与挑战

背景概述

在深入理解多镜头视频的领域中，Shot2Story-134K数据集应运而生，由字节跳动团队于2023年推出。该数据集旨在促进对多镜头视频的综合理解，涵盖视频摘要、视觉问答和问答等任务。核心研究人员包括Mingfei Han等，数据集的创建不仅丰富了相关领域的研究资源，也为多镜头视频的理解与生成提供了新的视角和挑战。其影响力迅速在学术界扩散，成为推动该领域发展的关键力量。

当前挑战

数据集在构建过程中面临的挑战主要包括：一是如何高效地生成和校对大量视频摘要，二是确保多镜头视频的标注质量，三是处理视频和文本之间的复杂关联。此外，数据集在解决多镜头视频理解问题的挑战上，如视频内容的时间关联性、视觉与语言的融合、以及视频摘要的多样性和准确性，均为当前研究的热点和难点。

常用场景

经典使用场景

在深入理解多镜头视频的领域，mhan/Shot2Story-134K数据集提供了一个全新的基准，其经典使用场景在于，研究者能够利用该数据集中的详尽文本描述，对多镜头视频进行综合性的理解和分析。这些描述包括人类注释和GPTV生成的长篇摘要，以及针对视频镜头的人类注释标题和旁白标题，从而促进了对视频内容的深层次解读和总结。

衍生相关工作

基于mhan/Shot2Story-134K数据集的研究已经衍生出一系列相关工作，包括对多镜头视频理解模型的评估和比较，以及探索视频内容与文本描述之间更深层次关联的研究，这些工作进一步推动了多模态学习和视频理解领域的发展。

数据集最近研究