five

mhan/Shot2Story-20K

收藏
Hugging Face2024-04-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/mhan/Shot2Story-20K
下载链接
链接失效反馈
官方服务:
资源简介:
Shot2Story数据集是一个用于多镜头视频理解的视频-文本基准数据集。该数据集包含134k版本,提供了134k视频的详细长摘要(人工标注+GPTV生成)和188k视频镜头的人工标注镜头字幕。数据集的文件格式为JSON,每个视频作为一个JSON对象,包含视频文件名、唯一视频ID、视频摘要、全视频ASR、视频镜头名称数组、每个镜头的叙述字幕数组、每个镜头的视频字幕数组和每个镜头的ASR输出数组。数据集不提供原始视频,但提供了YouTube视频ID、章节ID和起始-结束时间戳,以及下载和处理视频的Python脚本。数据集的文本注释遵循CC BY-NC-SA 4.0许可,仅用于非商业研究。

Shot2Story数据集是一个用于多镜头视频理解的视频-文本基准数据集。该数据集包含134k版本,提供了134k视频的详细长摘要(人工标注+GPTV生成)和188k视频镜头的人工标注镜头字幕。数据集的文件格式为JSON,每个视频作为一个JSON对象,包含视频文件名、唯一视频ID、视频摘要、全视频ASR、视频镜头名称数组、每个镜头的叙述字幕数组、每个镜头的视频字幕数组和每个镜头的ASR输出数组。数据集不提供原始视频,但提供了YouTube视频ID、章节ID和起始-结束时间戳,以及下载和处理视频的Python脚本。数据集的文本注释遵循CC BY-NC-SA 4.0许可,仅用于非商业研究。
提供机构:
mhan
原始信息汇总

数据集概述

名称: Shot2Story: A New Benchmark for Comprehensive Understanding of Multi-shot Videos

版本: 134K

任务类别:

  • 总结
  • 视觉问答
  • 问答

语言: 英语

数据集大小: 10K<n<100K

许可证: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

数据集内容

  • 视频数量: 134,000个视频
  • 视频镜头描述: 188,000个视频镜头
  • 注释类型:
    • 视频总结(人工标注 + GPTV生成)
    • 视频镜头标题(人工标注)

注释格式

  • 文件格式: JSON
  • 注释内容:
    • 视频文件名
    • 唯一视频ID
    • 视频总结
    • 全视频ASR输出
    • 视频镜头名称
    • 每个镜头的叙述标题
    • 每个镜头的视频标题
    • 每个镜头的ASR输出

视频下载

  • 视频访问信息: 包含YouTube视频ID、章节ID和时间戳的元数据文件
  • 下载脚本: Python脚本用于下载视频
  • 视频处理: 用于准备视频片段和单镜头视频的Python脚本

版权与许可

  • 文本注释许可: Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
  • 视频版权: 数据集不包含原始视频,用户需遵守HD-VILA-100M的访问条款

联系方式

  • 联系人: Mingfei Han (hmf282@gmail.com)

引用信息

@misc{han2023shot2story20k, title={Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos}, author={Mingfei Han and Linjie Yang and Xiaojun Chang and Heng Wang}, year={2023}, eprint={2312.10300}, archivePrefix={arXiv}, primaryClass={cs.CV} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作