Vript_Multilingual

Hugging Face2024-10-16 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Mutonix/Vript_Multilingual

下载链接

链接失效反馈

官方服务：

资源简介：

Vript是一个细粒度的视频-文本数据集，包含19.1K个高分辨率的UGC视频，约677k个片段，支持多种语言。数据集的特点包括多语言支持、更多样化和细粒度的分类、更广泛的时间范围、更高的分辨率、更长的平均时长和更多的片段。数据集的结构包括视频元数据、视频字幕、未修剪的视频和修剪后的视频片段。数据集的使用仅限于学术研究，禁止商业用途和分发。

创建时间：

2024-10-13

原始信息汇总

Vript_Multilingual 数据集概述

数据集任务类别

视频分类
视觉问答
文本到视频
文本到图像
图像到视频

语言支持

中文 (zh)
英文 (en)
德语 (de)
日语 (ja)
韩语 (ko)
俄语 (ru)
西班牙语 (es)
葡萄牙语 (pt)
爪哇语 (jv)
法语 (fr)
印度尼西亚语 (id)
越南语 (vi)

数据集规模

100K < n < 1M

配置

配置名称: bili
- 数据文件:
  - 分割: train
    - 路径: vript_CN-V2_captions/vript_CN-V2_captions.jsonl

数据集特点

多语言支持:
- 中文 (59%)
- 英文 (24%)
- 德语 (13%)
- 日语 (2%)
- 韩语 (1%)
- 俄语 (<1%)
- 西班牙语 (<1%)
- 葡萄牙语 (<1%)
- 爪哇语 (<1%)
- 法语 (<1%)
- 印度尼西亚语 (<1%)
- 越南语 (<1%)
更多样化和细粒度的类别: 113个类别
更广泛的时间范围: 从2011年1月到2024年6月
更高分辨率: 1080p
更长的平均时长: 超过10分钟
更多片段: 约677k个片段

数据结构

video_id: 视频的ID
video_title: 视频的标题
num_clips: 视频中的片段数量
integrity: 视频的所有片段是否都被标注
clip_id: 视频中片段的ID
caption: 场景的标注，包括镜头类型、摄像机移动、内容和场景标题
voiceover: 场景中的配音转录

数据文件组织

Vript_Multilingual/ | ├── vript_CN-V2_meta.json │ ├── vript_CN-V2_captions/ │ ├── vript_CN-V2_captions.zip │ └── vript_CN-V2_captions.jsonl │ ├── vript_CN-V2_videos/ │ ├── CN-V2_video_1_of_224.zip │ │ ├── xxx.mp4 │ │ └── ... │ ├── CN-V2_video_2_of_224.zip │ └── ... │ └── vript_CN-V2_clips/ ├── CN-V2_clips_1_of_224.zip │ ├── xxx/ │ │ ├── xxx_cut_meta.json │ │ ├── xxx_asr.jsonl │ │ ├── xxx-Scene-001.mp4 │ │ └── ... │ └── ... ├── CN-V2_clips_2_of_224.zip └── ...

许可证

仅限学术使用
禁止分发
限制和责任限制
免责声明

引用

@misc{yang2024vript, title={Vript: A Video Is Worth Thousands of Words}, author={Dongjie Yang and Suyuan Huang and Chengqiang Lu and Xiaodong Han and Haoxin Zhang and Yan Gao and Yao Hu and Hai Zhao}, year={2024}, eprint={2406.06040}, archivePrefix={arXiv}, primaryClass={cs.CV} }

联系

Dongjie Yang: djyang.tony@sjtu.edu.cn
论文: arxiv.org/abs/2406.06040

搜集汇总

数据集介绍

构建方式

Vript_Multilingual数据集的构建基于19.1K个高分辨率用户生成内容（UGC）视频，这些视频被精细地标注为约677K个片段，涵盖了多种语言。数据集的构建过程包括从YouTube平台获取视频资源，并通过自动化工具和人工审核相结合的方式，对视频进行分段、标注和转录。每个视频片段均包含详细的元数据，如视频ID、标题、片段数量以及完整性信息，确保数据的高质量和一致性。

特点

Vript_Multilingual数据集以其多语言支持、多样化的类别和高分辨率视频为显著特点。数据集涵盖12种语言，其中中文占比最高，达60%。视频内容覆盖113个类别，时间跨度从2011年至2024年，平均时长超过10分钟，分辨率高达1080p。此外，数据集提供了丰富的标注信息，包括镜头类型、摄像机运动、场景内容和语音转录，为多模态研究提供了坚实的基础。

使用方法

使用Vript_Multilingual数据集时，用户需首先下载数据集文件，包括视频、片段和标注信息。数据集以JSONL格式存储，便于解析和处理。用户可通过视频ID和片段ID快速定位特定内容，并利用标注信息进行视频分类、视觉问答、文本生成等任务。数据集的使用仅限于学术研究，用户需遵守相关许可协议，确保数据的合法使用。

背景与挑战

背景概述

Vript_Multilingual数据集由上海交通大学的研究团队于2024年推出，旨在为多语言视频理解与生成任务提供高质量的标注数据。该数据集包含19.1K个高分辨率用户生成视频，涵盖677K个剪辑片段，涉及12种语言，其中中文占比最高。数据集的核心研究问题在于如何通过多语言视频文本对，提升视频分类、视觉问答、文本到视频生成等任务的性能。其广泛的语言覆盖和细粒度的标注为跨语言视频理解研究提供了重要支持，推动了多模态人工智能领域的发展。

当前挑战

Vript_Multilingual数据集在构建与应用中面临多重挑战。首先，多语言视频文本对的标注需要克服语言多样性和文化差异带来的复杂性，确保标注的一致性和准确性。其次，数据集的规模庞大，视频分辨率高，存储与处理对计算资源提出了极高要求。此外，视频内容的多样性和时间跨度大，增加了数据清洗和标注的难度。在应用层面，如何有效利用多语言信息进行跨模态对齐，以及在不同语言间实现知识迁移，仍是亟待解决的关键问题。

常用场景

经典使用场景

Vript_Multilingual数据集在视频分类、视觉问答、文本到视频生成等任务中展现了其独特的价值。通过提供多语言、高分辨率的视频片段及其精细标注，该数据集为研究者提供了一个丰富的实验平台，尤其是在跨语言视频理解与生成领域，极大地推动了相关技术的发展。

解决学术问题

Vript_Multilingual数据集解决了多语言视频理解中的关键问题，如跨语言视频标注的稀缺性、视频内容的细粒度分类以及多模态数据的对齐问题。通过提供多语言、高分辨率的视频片段及其详细标注，该数据集为研究者提供了一个统一的实验平台，推动了跨语言视频理解与生成领域的研究进展。

衍生相关工作

Vript_Multilingual数据集衍生了一系列经典工作，如基于多语言视频的跨模态检索、多语言视频生成模型以及跨语言视频分类算法。这些工作不仅在学术界引起了广泛关注，还在工业界得到了实际应用，进一步推动了多语言视频处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集