mhan/Shot2Story-20K
收藏Hugging Face2024-04-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mhan/Shot2Story-20K
下载链接
链接失效反馈官方服务:
资源简介:
Shot2Story数据集是一个用于多镜头视频理解的视频-文本基准数据集。该数据集包含134k版本,提供了134k视频的详细长摘要(人工标注+GPTV生成)和188k视频镜头的人工标注镜头字幕。数据集的文件格式为JSON,每个视频作为一个JSON对象,包含视频文件名、唯一视频ID、视频摘要、全视频ASR、视频镜头名称数组、每个镜头的叙述字幕数组、每个镜头的视频字幕数组和每个镜头的ASR输出数组。数据集不提供原始视频,但提供了YouTube视频ID、章节ID和起始-结束时间戳,以及下载和处理视频的Python脚本。数据集的文本注释遵循CC BY-NC-SA 4.0许可,仅用于非商业研究。
Shot2Story数据集是一个用于多镜头视频理解的视频-文本基准数据集。该数据集包含134k版本,提供了134k视频的详细长摘要(人工标注+GPTV生成)和188k视频镜头的人工标注镜头字幕。数据集的文件格式为JSON,每个视频作为一个JSON对象,包含视频文件名、唯一视频ID、视频摘要、全视频ASR、视频镜头名称数组、每个镜头的叙述字幕数组、每个镜头的视频字幕数组和每个镜头的ASR输出数组。数据集不提供原始视频,但提供了YouTube视频ID、章节ID和起始-结束时间戳,以及下载和处理视频的Python脚本。数据集的文本注释遵循CC BY-NC-SA 4.0许可,仅用于非商业研究。
提供机构:
mhan
原始信息汇总
数据集概述
名称: Shot2Story: A New Benchmark for Comprehensive Understanding of Multi-shot Videos
版本: 134K
任务类别:
- 总结
- 视觉问答
- 问答
语言: 英语
数据集大小: 10K<n<100K
许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
数据集内容
- 视频数量: 134,000个视频
- 视频镜头描述: 188,000个视频镜头
- 注释类型:
- 视频总结(人工标注 + GPTV生成)
- 视频镜头标题(人工标注)
注释格式
- 文件格式: JSON
- 注释内容:
- 视频文件名
- 唯一视频ID
- 视频总结
- 全视频ASR输出
- 视频镜头名称
- 每个镜头的叙述标题
- 每个镜头的视频标题
- 每个镜头的ASR输出
视频下载
- 视频访问信息: 包含YouTube视频ID、章节ID和时间戳的元数据文件
- 下载脚本: Python脚本用于下载视频
- 视频处理: 用于准备视频片段和单镜头视频的Python脚本
版权与许可
- 文本注释许可: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
- 视频版权: 数据集不包含原始视频,用户需遵守HD-VILA-100M的访问条款
联系方式
- 联系人: Mingfei Han (hmf282@gmail.com)
引用信息
@misc{han2023shot2story20k, title={Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos}, author={Mingfei Han and Linjie Yang and Xiaojun Chang and Heng Wang}, year={2023}, eprint={2312.10300}, archivePrefix={arXiv}, primaryClass={cs.CV} }



