MiraData

Name: MiraData
Creator: 腾讯PCG ARC实验室, 香港中文大学
Published: 2024-07-09 03:58:59
License: 暂无描述

arXiv2024-07-09 更新2024-07-11 收录

下载链接：

https://github.com/mira-space/MiraData

下载链接

链接失效反馈

官方服务：

资源简介：

MiraData是由腾讯PCG ARC实验室和香港中文大学共同创建的一个大规模视频数据集，专注于长视频（平均72.1秒）和结构化详细字幕（平均318字）。数据集内容丰富，包含多种高质量视频，通过多模型分割、筛选和注释过程精心制作。创建过程中，采用了先进的字幕生成技术和视觉质量评估，确保视频内容的高质量和字幕的准确性。MiraData主要应用于视频生成领域，旨在解决现有数据集在视频长度、运动强度和字幕详细度方面的不足，推动视频生成技术的发展。

MiraData is a large-scale video dataset jointly developed by Tencent PCG ARC Lab and The Chinese University of Hong Kong. It focuses on long videos with an average duration of 72.1 seconds and structured detailed subtitles averaging 318 words per entry. The dataset contains a rich variety of high-quality videos, which are meticulously crafted through a multi-model segmentation, filtering and annotation pipeline. During the creation process, advanced subtitle generation technologies and visual quality evaluation methods were employed to ensure the high quality of video content and the accuracy of the subtitles. Primarily applied in the field of video generation, MiraData aims to address the limitations of existing datasets in terms of video length, motion intensity and subtitle detail level, so as to promote the advancement of video generation technologies.

提供机构：

腾讯PCG ARC实验室, 香港中文大学

创建时间：

2024-07-09

原始信息汇总

MiraData 数据集概述

简介

MiraData 是一个专为长视频生成任务设计的大型视频数据集，旨在解决现有文本-视频数据集在处理长视频序列和捕捉镜头转换方面的不足。该数据集还引入了 MiraBench，通过增加3D一致性和基于跟踪的运动强度指标来增强现有基准。

关键特性

长视频时长：MiraData 包含的视频片段平均时长为72秒，远超传统数据集的20秒以下时长，更适合全面建模视频内容。
结构化描述：每个视频都配有详细的结构化描述，平均长度为318字，从多个角度提供丰富描述。

数据集版本

MiraData 发布了四个版本，分别包含330K、93K、42K和9K数据。

元文件信息

元文件包含以下索引信息：

clip_id：视频片段索引，格式为 {download_id}.{clip_id}
source：视频下载来源和类别
video_url：视频源链接
video_id：源网站中的视频ID
width：视频宽度
height：视频高度
fps：用于提取帧的视频帧率
seconds：视频片段时长
timestamp：片段在源视频中的起止时间戳
frame_number：视频片段的帧数
framestamp：片段在源视频中的起止帧
file_path：存储视频片段的文件路径
short_caption：简短总体描述
dense_caption：密集总体描述
background_caption：视频背景描述
main_object_caption：视频中主要对象的描述
style_caption：视频风格描述
camera_caption：摄像机移动描述

下载方法

通过下载元文件，可以使用提供的脚本下载视频样本并分割成片段。

收集与标注

MiraData 的视频来自多个渠道，包括 YouTube、HD-VILA-100M、Videovo、Pixabay 和 Pexels。视频经过下载、分割和质量筛选后，使用 GPT-4V 进行标注。

结构化描述

每个视频的描述包括六种类型：

主要对象描述
背景描述
风格描述
摄像机移动描述
简短描述
密集描述

GPT-4V 标注

通过均匀采样视频帧并使用 GPT-4V 进行标注，以确保描述的准确性和连贯性。

基准 - MiraBench

MiraBench 设计了17个评估指标，从六个角度评估视频生成质量，包括时间一致性、时间运动强度、3D一致性、视觉质量、文本-视频对齐和分布一致性。

许可证

MiraData 数据集仅用于信息目的，版权归原始所有者所有。使用者不得用于商业目的或进一步复制、发布或分发任何部分数据。

引用

如需引用此数据集，请参考提供的论文引用格式。

搜集汇总

数据集介绍

构建方式

MiraData数据集的构建过程经过精心设计，旨在为视频生成任务提供高质量、长时长的视频资源。首先，研究团队从YouTube、Videvo、Pixabay和Pexels等平台手动筛选了多样化的视频源，确保视频内容涵盖丰富的运动强度和视觉质量。随后，通过视频分割与拼接技术，将原始视频分割为语义连贯的长片段，并利用Qwen-VL-Chat、LLaVA、ImageBind和DINOv2等模型进行语义一致性检测，确保视频片段的连贯性。最后，通过颜色、美学质量、运动强度和NSFW内容等多维度筛选，确保数据集的高质量。

使用方法

MiraData数据集的使用方法主要围绕视频生成模型的训练与评估展开。研究人员可以利用该数据集训练基于扩散变换器（DiT）的视频生成模型，如MiraDiT，以生成具有高运动强度和3D一致性的长视频。此外，MiraData还配备了MiraBench评估框架，包含17项指标，涵盖时间一致性、运动强度、3D一致性、视觉质量和文本-视频对齐等多个维度。通过150个评估提示，研究人员可以全面评估模型在不同任务中的表现，从而推动视频生成技术的进一步发展。

背景与挑战

背景概述

MiraData是由腾讯PCG的ARC实验室与香港中文大学的研究团队于2024年推出的一个大规模视频数据集，旨在解决现有视频生成模型在长视频生成、运动强度和3D一致性方面的不足。该数据集包含平均时长为72.1秒的视频，并配备了详细的结构化字幕，平均每个视频的字幕长度达到318个单词。MiraData的构建过程包括视频收集、分割、拼接、筛选和字幕生成五个步骤，确保了视频的高质量和语义一致性。该数据集的推出为生成高质量、长时间的视频提供了丰富的数据支持，推动了视频生成领域的发展。

当前挑战

MiraData面临的挑战主要包括两个方面：首先，现有视频生成模型在处理长时间视频时，往往难以保持时间一致性和运动强度，导致生成的视频质量下降。MiraData通过提供长时间、高运动强度的视频数据，试图解决这一问题。其次，数据集的构建过程中，研究人员需要克服视频分割、拼接和筛选的技术难题，确保视频片段的语义一致性和视觉质量。此外，生成详细且准确的字幕也是一个挑战，MiraData通过使用GPT-4V等先进模型来生成结构化字幕，以提供更丰富的视频描述。这些挑战的解决为视频生成模型的训练和评估提供了更高质量的数据基础。

常用场景

经典使用场景

MiraData数据集在视频生成领域具有广泛的应用，尤其是在生成高质量、长时间跨度的视频内容时表现出色。其经典使用场景包括训练文本到视频生成模型，如Sora等先进模型，这些模型能够生成具有强运动强度和3D一致性的长视频。MiraData通过其丰富的视频时长和结构化字幕，为模型提供了多样化的训练数据，使其能够更好地理解物理规律和视觉一致性。

解决学术问题

MiraData解决了现有视频生成数据集中存在的几个关键问题。首先，它弥补了现有数据集视频时长短、运动强度低的不足，提供了平均72.1秒的长视频和强运动强度的视频片段。其次，MiraData通过结构化字幕提供了详细的视频描述，解决了现有数据集字幕简短且不准确的问题。这些改进使得MiraData能够更好地支持生成具有高运动强度和3D一致性的长视频，推动了视频生成领域的研究进展。

实际应用

在实际应用中，MiraData数据集被广泛用于训练和评估文本到视频生成模型。例如，基于MiraData训练的MiraDiT模型在生成长视频时表现出色，能够生成具有强运动强度和视觉一致性的视频内容。此外，MiraData还可用于视频编辑、虚拟现实和增强现实等领域，帮助开发者生成高质量的视频内容，提升用户体验。

数据集最近研究