MiraData

Hugging Face2024-07-12 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/TencentARC/MiraData

下载链接

链接失效反馈

官方服务：

资源简介：

MiraData是一个专为长视频生成任务设计的大型视频数据集，包含330K、93K、42K和9K四个版本的数据。该数据集解决了现有文本-视频数据集在处理长视频序列和捕捉镜头转换方面的不足。每个视频片段包含详细的元数据信息，如视频ID、宽度、高度、帧率、持续时间、时间戳等，以及结构化的字幕信息，如短字幕、密集字幕、背景字幕、主要对象字幕、风格字幕和相机移动字幕。此外，还提供了下载和分割视频的脚本。

MiraData is a large-scale video dataset specifically tailored for long-form video generation tasks, which comprises four dataset versions with scales of 330K, 93K, 42K, and 9K respectively. It addresses the limitations of existing text-video datasets in handling long video sequences and capturing shot transitions. Each video clip includes detailed metadata such as video ID, width, height, frame rate, duration, timestamps, and other relevant information, as well as structured subtitle information covering short subtitles, dense subtitles, background subtitles, main object subtitles, style subtitles, and camera movement subtitles. Additionally, scripts for downloading and segmenting videos are provided.

创建时间：

2024-07-11

原始信息汇总

MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

数据集概述

基本信息

许可证: GPL-3.0
任务类别:
- 图像转视频
- 文本转图像
- 文本转视频
- 视频分类
语言: 英语
标签: 艺术
数据集大小: 100K<n<1M

数据集介绍

MiraData 是一个专为长视频生成任务设计的大型视频数据集。该数据集旨在解决现有文本-视频数据集在处理长视频序列和捕捉镜头转换方面的不足。此外，为了更好地评估视频生成中的时间一致性和运动强度，引入了 MiraBench，该基准通过增加三维一致性和基于跟踪的运动强度指标来增强现有基准。

数据集版本

MiraData 发布了四个版本，包含 330K、93K、42K、9K 数据。

元文件信息

元文件包含以下索引信息：

clip_id: 视频片段索引，由 {download_id}.{clip_id} 组成
source: 视频下载来源和类别
video_url: 视频源链接
video_id: 视频在源网站中的ID
width: 视频宽度
height: 视频高度
fps: 用于提取帧的视频帧率
seconds: 视频片段的持续时间
timestamp: 视频片段在源视频中的开始和结束时间戳（用于从源视频中剪切视频片段）
frame_number: 视频片段的帧数
framestamp: 视频片段在源视频中的开始和结束帧
file_path: 存储视频片段的文件路径
short_caption: 简短的总体描述
dense_caption: 密集的总体描述
background_caption: 视频背景的描述
main_object_caption: 视频中主要对象的描述
style_caption: 视频风格的描述
camera_caption: 摄像机移动的描述

下载方法

可以使用以下脚本下载视频并将其分割成片段： python python download_data.py --meta_csv {meta file} --download_start_id {the start of download id} --download_end_id {the end of download id} --raw_video_save_dir {the path of saving raw videos} --clip_video_save_dir {the path of saving cutted video}

引用信息

如果该数据集对您的研究有用，请引用以下论文：

@misc{ju2024miradatalargescalevideodataset, title={MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions}, author={Xuan Ju and Yiming Gao and Zhaoyang Zhang and Ziyang Yuan and Xintao Wang and Ailing Zeng and Yu Xiong and Qiang Xu and Ying Shan}, year={2024}, eprint={2407.06358}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2407.06358}, }

联系信息

如有任何疑问，请通过电子邮件 mira-x@googlegroups.com 联系。

搜集汇总

数据集介绍

构建方式

MiraData数据集的构建旨在解决现有文本-视频数据集在处理长视频序列和捕捉镜头转换方面的不足。该数据集通过精心设计的元文件结构，包含330K、93K、42K和9K四种版本，每个视频剪辑均配有详细的索引信息，如视频来源、分辨率、帧率、持续时间等。此外，数据集还提供了丰富的文本描述，包括简短描述、密集描述、背景描述、主体描述、风格描述和摄像机运动描述，以支持多样化的视频生成任务。

使用方法

使用MiraData数据集时，用户可通过提供的Python脚本下载视频并将其分割为剪辑。脚本支持指定元文件、下载ID范围以及保存路径，便于灵活处理数据。用户还可根据需求调整剪辑的起始和结束时间，以生成符合特定任务需求的视频片段。数据集的使用不仅限于视频生成，还可用于视频分类、文本到图像和文本到视频等多种任务，为研究提供了广泛的应用场景。

背景与挑战

背景概述

MiraData数据集由腾讯PCG的ARC实验室于2024年推出，旨在解决现有视频生成任务中长视频序列处理和镜头转换捕捉的不足。该数据集由Xuan Ju、Yiming Gao、Zhaoyang Zhang等研究人员主导开发，专注于长视频生成任务，并引入了MiraBench基准，以增强对时间一致性和运动强度的评估。MiraData的发布为视频生成领域提供了重要的数据支持，特别是在处理复杂场景和长时间跨度的视频内容方面，具有显著的影响力。

当前挑战

MiraData面临的挑战主要包括两个方面。首先，在解决领域问题时，长视频生成任务需要处理复杂的时序信息和多变的场景转换，这对模型的时序建模能力和计算资源提出了极高的要求。其次，在数据集构建过程中，如何高效地标注长视频的密集描述信息、确保视频片段的时序一致性以及处理大规模数据的存储与传输，都是构建团队需要克服的技术难题。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

MiraData数据集在视频生成领域具有广泛的应用，尤其是在处理长视频序列和捕捉镜头转换方面表现出色。该数据集通过提供结构化的字幕信息，使得研究人员能够更好地评估视频生成中的时间一致性和运动强度。其经典使用场景包括视频生成模型的训练与评估，特别是在需要处理长时间视频内容时，MiraData能够提供丰富的素材和详细的标注信息。

解决学术问题

MiraData解决了现有文本-视频数据集在处理长视频序列和捕捉镜头转换方面的不足。通过引入MiraBench，该数据集进一步增强了现有基准测试，增加了3D一致性和基于跟踪的运动强度指标。这些改进使得研究人员能够更准确地评估视频生成模型的时间一致性和运动表现，推动了视频生成领域的研究进展。

实际应用

在实际应用中，MiraData被广泛用于视频生成、视频分类以及文本到视频的转换任务。其丰富的视频素材和结构化字幕信息为视频生成模型提供了高质量的输入数据，使得生成的视频内容更加连贯和逼真。此外，该数据集还可用于视频编辑、虚拟现实和增强现实等领域，为这些应用提供了强大的数据支持。

数据集最近研究