mhan/shot2story
收藏Hugging Face2024-06-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mhan/shot2story
下载链接
链接失效反馈官方服务:
资源简介:
Shot2Story数据集是一个用于多镜头视频理解的新基准。该数据集包含134k个版本,其中包括134k个视频的详细长摘要(人类注释+GPTV生成)和188k个视频镜头的镜头字幕(人类注释)。数据集分为多个配置,包括多镜头摘要、单镜头字幕和问答对。每个视频的注释以JSON格式提供,包含视频文件名、唯一视频ID、视频摘要、全视频ASR、视频镜头名称数组、每个镜头的叙述字幕数组、每个镜头的视频字幕数组和每个镜头的ASR输出数组。数据集还提供了视频下载链接和下载脚本,并强调了版权和许可问题。
Shot2Story数据集是一个用于多镜头视频理解的新基准。该数据集包含134k个版本,其中包括134k个视频的详细长摘要(人类注释+GPTV生成)和188k个视频镜头的镜头字幕(人类注释)。数据集分为多个配置,包括多镜头摘要、单镜头字幕和问答对。每个视频的注释以JSON格式提供,包含视频文件名、唯一视频ID、视频摘要、全视频ASR、视频镜头名称数组、每个镜头的叙述字幕数组、每个镜头的视频字幕数组和每个镜头的ASR输出数组。数据集还提供了视频下载链接和下载脚本,并强调了版权和许可问题。
提供机构:
mhan
原始信息汇总
数据集概述
数据集名称
- 名称: Shot2Story
数据集内容
- 类型: 视频-文本数据集
- 规模: 包含134k视频数据,涵盖548k视频镜头
- 内容详情:
- 提供134k视频的详细长摘要(人类标注+GPTV生成)
- 提供188k视频镜头的人类标注标题
数据集配置
- 配置名称: multi-shot summarization
- 数据文件:
- 43k_human_train.json
- 90k_gptv_train.json
- 134k_full_train.json
- 20k_test.json
- 20k_val.json
- 数据文件:
- 配置名称: single-shot captioning
- 数据文件:
- 43k_human_shot_train.json
- 20k_human_shot_test.json
- 20k_human_shot_val.json
- 数据文件:
- 配置名称: question-answering
- 数据文件:
- testing_qa.json
- val_qa.json
- 数据文件:
数据集用途
- 任务类别:
- 总结
- 视觉问答
- 问答
数据集许可证
- 许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
- 使用限制: 仅限非商业研究使用
数据集联系方式
- 联系人: Mingfei Han
- 邮箱: hmf282@gmail.com
数据集下载和处理
- 视频下载信息: 请参考此问题
- 视频处理: 使用提供的Python脚本进行视频下载和处理
数据集标注格式
- 标注文件:
- 20k_{train/test/val}.json
- 90k_gptv_train.json
- 43k_human_train.json
- 134k_full_train.json
- {testing/val}_qa.json
- 标注内容:
- 视频文件名
- 唯一视频ID
- 视频摘要
- 全视频ASR输出
- 视频镜头名称
- 叙述标题
- 视频标题
- 镜头ASR输出
数据集引用
-
引用格式:
@misc{han2023shot2story20k, title={Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos}, author={Mingfei Han and Linjie Yang and Xiaojun Chang and Heng Wang}, year={2023}, eprint={2312.10300}, archivePrefix={arXiv}, primaryClass={cs.CV} }



