Mutonix/Vript_Chinese
收藏Hugging Face2024-06-15 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/Mutonix/Vript_Chinese
下载链接
链接失效反馈官方服务:
资源简介:
Vript数据集是一个细粒度的视频文本数据集,包含44.7K个高分辨率视频(约293k个片段),所有视频都使用中文进行注释。数据集的注释灵感来源于视频脚本,旨在通过视频脚本的形式对视频进行注释,包括场景内容、镜头类型和摄像机运动等信息。此外,数据集还提供了视频的语音转写文本和视频标题,以提供更多背景信息。数据集的格式和结构包括视频ID、视频标题、片段数量、完整性、片段ID、注释内容和语音转写等。数据集的存储结构包括元数据文件、视频注释文件、未剪辑视频文件和剪辑视频文件等。
Vript数据集是一个细粒度的视频文本数据集,包含44.7K个高分辨率视频(约293k个片段),所有视频都使用中文进行注释。数据集的注释灵感来源于视频脚本,旨在通过视频脚本的形式对视频进行注释,包括场景内容、镜头类型和摄像机运动等信息。此外,数据集还提供了视频的语音转写文本和视频标题,以提供更多背景信息。数据集的格式和结构包括视频ID、视频标题、片段数量、完整性、片段ID、注释内容和语音转写等。数据集的存储结构包括元数据文件、视频注释文件、未剪辑视频文件和剪辑视频文件等。
提供机构:
Mutonix
原始信息汇总
数据集概述
基本信息
- 任务类别: 视频分类、视觉问答、文本到视频、文本到图像、图像到视频
- 语言: 中文
- 数据集大小: 100K<n<1M
- 配置:
- 配置名称: dy
- 数据文件:
- 分割: 训练
- 路径: vript_CN_captions/vript_CN_captions.jsonl
数据集描述
- 数据集类型: 细粒度视频-文本数据集
- 视频数量: 44.7K个高分辨率视频(约293k个片段)
- 标注方式: 视频脚本格式,每个场景包含超过200个中文字符的标注
- 数据结构:
video_id: 视频IDvideo_title: 视频标题num_clips: 视频中的片段数量integrity: 是否所有片段都被标注clip_id: 片段IDcaption: 场景标注,包括镜头类型、摄像机移动、内容和场景标题voiceover: 场景中的旁白转录文本
数据组织
- 目录结构:
Vript_Chinese/vript_CN_meta.json: 视频元信息vript_CN_captions/: 视频标注文件vript_CN_videos/: 未剪辑的视频文件(300 GB)vript_CN_clips/: 剪辑后的视频片段(365 GB)xxx_cut_meta.json: 视频剪辑元信息xxx_asr.jsonl: 旁白转录文本
许可证
- 学术用途: 仅限学术研究使用
- 禁止分发: 未经版权所有者许可,不得以任何形式广播、修改或分发数据集内容
- 责任限制: 不对因使用或无法使用数据集及其相关软件而产生的任何其他损害负责
- 免责声明: 用户需对因不当使用数据集内容而产生的法律责任负责
引用
@misc{yang2024vript, title={Vript: A Video Is Worth Thousands of Words}, author={Dongjie Yang and Suyuan Huang and Chengqiang Lu and Xiaodong Han and Haoxin Zhang and Yan Gao and Yao Hu and Hai Zhao}, year={2024}, eprint={2406.06040}, archivePrefix={arXiv}, primaryClass={cs.CV} }
联系信息
- 联系人: Dongjie Yang
- 邮箱: djyang.tony@sjtu.edu.cn
- 论文链接: arxiv.org/abs/2406.06040
搜集汇总
数据集介绍

背景与挑战
背景概述
Vript_Chinese是一个大规模中文视频文本数据集,包含44.7K个高分辨率视频(约293K个片段),每个片段都配有详细的脚本式标注,涵盖镜头类型、摄像机移动方式和画面内容等信息。数据集还提供视频标题和语音转录文本,为视频理解任务提供了丰富的多模态信息。
以上内容由遇见数据集搜集并总结生成



