MiraData

github2024-04-12 更新2024-05-31 收录

下载链接：

https://github.com/mira-space/MiraData

下载链接

链接失效反馈

官方服务：

资源简介：

Video datasets play a crucial role in video generation such as sora. However, existing text-video datasets often fall short when it comes to handling long video sequences and capturing shot transitions. To address these limitations, we introduce MiraData (Mini-Sora Data), a large-scale video dataset designed specifically for long video generation tasks. Key Features of MiraData 1. Long Video Duration: Unlike previous datasets, where video clips are often very short (typically less than 6 seconds), MiraData focuses on uncut video segments with durations ranging from 1 to 2 minutes. This extended duration allows for more comprehensive modeling of video content. 2. Structured Captions: Each video in MiraData is accompanied by structural captions. These captions provide detailed descriptions from various perspectives, enhancing the richness of the dataset. The average caption length is 349 words, ensuring a thorough representation of the video content.

视频数据集在包括Sora在内的视频生成领域发挥着至关重要的作用。然而，现有的文本-视频数据集在处理长视频序列与捕捉镜头转场方面往往存在不足。为解决上述局限，我们推出了MiraData（Mini-Sora Data）——一款专为长视频生成任务打造的大规模视频数据集。 MiraData核心特性： 1. 长视频时长：与过往数据集通常仅支持极短视频片段（通常不足6秒）不同，MiraData聚焦时长1至2分钟的未剪辑视频片段。该更长的时长支持对视频内容进行更全面的建模。 2. 结构化标注文本：MiraData中的每段视频均配有结构化解说文本。此类文本从多维度提供详细描述，提升了数据集的丰富度。其平均标注文本长度达349词，可完整呈现视频内容。

提供机构：

腾讯

创建时间：

2024-03-24

原始信息汇总

MiraData 数据集概述

数据集简介

MiraData 是一个专为长视频生成任务设计的大规模视频数据集，旨在解决现有文本-视频数据集在处理长视频序列和捕捉镜头转换方面的不足。

关键特性

长视频时长: MiraData 包含的视频片段时长为1到2分钟，相比其他数据集的短片段（通常少于6秒），提供了更全面的内容模型。
结构化标题: 每个视频都配有详细的结构化标题，从多个角度提供描述，平均标题长度为349字，确保了对视频内容的全面描述。

当前状态

MiraData 的初始版本包含两个场景：

游戏：与游戏体验相关的视频。
城市/风景探索：捕捉城市或风景的视频。

数据集构成

视频数量与时长: 数据集包含57,803个视频片段，总时长为1,754小时。
- 游戏场景：31,159个视频片段，总时长893小时。
- 城市/风景探索场景：26,644个视频片段，总时长861小时。

元文件信息

元文件内容: 包含视频片段的索引、YouTube视频ID、起始帧、结束帧、主要对象标题、背景标题、风格标题、相机移动标题、简短标题和密集标题等。
样本元文件: 提供了100个随机样本的元文件，便于快速理解元文件结构。

下载与使用

下载方法: 使用提供的脚本可以下载视频并将其分割成片段。
场景ID范围: 游戏场景的下载索引范围为0至7416，城市/风景探索场景为7417至10631。

收集与标注

视频收集: 通过手动选择YouTube频道，下载相关视频，并使用PySceneDetect进行分割。
标题生成: 使用GPT-4V生成标题，通过均匀采样8帧并排列成2x4网格的大图像，输入到Panda-70M标题模型中，然后使用GPT-4V输出多维标题。

统计信息

标题长度统计: 提供了密集标题和六种类型标题的总文本长度统计。
标题内容可视化: 通过词云展示了简短标题和密集标题的内容分布。

演示

视频-标题对: 展示了视频及其对应的结构化标题，包括主要对象描述、背景、风格、相机移动、简短标题和密集标题。

搜集汇总

数据集介绍

构建方式

MiraData数据集的构建过程体现了对长视频生成任务的深刻理解与创新设计。首先，研究团队从多个知名视频平台如YouTube、HD-VILA-100M、Videovo、Pixabay和Pexels中精选视频资源，并通过PySceneDetect工具进行场景分割，确保视频片段的连贯性与质量。随后，利用多模型技术对短片段进行拼接与筛选，最终选取时长较长的视频片段。为增强数据集的语义丰富性，研究团队采用GPT-4V模型对视频进行结构化标注，生成包括主对象描述、背景、风格、摄像机运动等多维度的详细字幕，确保每个视频片段的全面描述。

特点

MiraData数据集的核心特点在于其对长视频片段的专注与结构化字幕的丰富性。与传统视频数据集相比，MiraData的视频片段平均时长达到72秒，远超常规的20秒以内，为模型提供了更长的时序建模机会。此外，每个视频片段均配备六种不同类型的结构化字幕，涵盖主对象、背景、风格、摄像机运动等多个维度，平均字幕长度为318字，极大提升了数据集的语义表达能力。这种设计不仅增强了视频内容的描述深度，还为视频生成任务提供了更为全面的评估基准。

使用方法

使用MiraData数据集时，用户首先需从Google Drive或HuggingFace平台下载元数据文件，这些文件包含了视频片段的详细索引信息。随后，用户可通过提供的Python脚本进行视频下载与片段切割，确保数据的完整性与可用性。为便于评估生成的视频，数据集还提供了MiraBench基准测试工具，用户可通过安装相关依赖并运行评估脚本，对生成的视频进行时序一致性、运动强度等多维度的量化评估。此外，数据集的结构化字幕设计也为用户提供了丰富的语义信息，便于进行更深层次的模型训练与优化。

背景与挑战

背景概述

在视频生成领域，现有的文本-视频数据集在处理长视频序列和捕捉镜头转换方面存在显著不足。为应对这一挑战，腾讯ARC实验室与香港中文大学合作，于2024年推出了MiraData数据集。该数据集由Xuan Ju、Yiming Gao、Zhaoyang Zhang等研究人员主导，专注于长视频生成任务，旨在提供更全面的视频内容建模。MiraData不仅包含平均时长为72秒的长视频片段，还配备了结构化的详细字幕，平均字幕长度达318字，极大地丰富了数据集的描述维度。该数据集的推出对视频生成领域的研究具有重要意义，尤其在提升时间一致性和运动强度评估方面，为相关领域的研究提供了新的基准。

当前挑战

MiraData数据集在构建过程中面临多项挑战。首先，处理长视频序列需要克服视频存储和计算资源的限制，确保数据的高效管理和处理。其次，结构化字幕的生成涉及复杂的自然语言处理技术，尤其是使用GPT-4V进行字幕标注时，需平衡标注成本与字幕准确性。此外，数据集的多样性和质量控制也是一大挑战，研究人员需从多个来源筛选高质量视频，并通过多模型筛选和拼接技术确保数据集的多样性和代表性。最后，评估长视频生成效果的基准设计，如MiraBench，需涵盖时间一致性、3D一致性等多个维度，这对评估方法的全面性和准确性提出了更高要求。

常用场景

经典使用场景

MiraData数据集在视频生成领域中具有广泛的应用，尤其是在处理长视频序列和捕捉镜头转换方面。其经典使用场景包括视频生成模型的训练与评估，尤其是在需要处理长时间视频内容的任务中，如电影片段生成、虚拟现实内容创作等。通过提供长时间的视频片段和结构化的字幕，MiraData为模型提供了更丰富的上下文信息，从而提升了视频生成任务中的时间一致性和内容连贯性。

实际应用

MiraData数据集在实际应用中具有广泛的前景，特别是在影视制作、虚拟现实和增强现实领域。例如，在电影制作中，MiraData可以用于生成连续的长镜头片段，帮助导演和制作团队快速生成和编辑视频内容。在虚拟现实和增强现实中，MiraData的长视频片段和结构化字幕可以用于创建更加沉浸式的体验，提升用户的交互感和参与度。此外，MiraData还可以应用于视频编辑工具中，帮助用户快速生成和编辑高质量的视频内容。

衍生相关工作

MiraData数据集的发布催生了一系列相关的经典工作，特别是在视频生成和字幕生成领域。基于MiraData，研究者们开发了新的视频生成模型，这些模型能够更好地处理长时间视频序列，并在时间一致性和内容连贯性方面取得了显著进展。此外，MiraData的结构化字幕生成方法也为字幕生成技术提供了新的思路，推动了字幕生成模型在语义理解和时间序列上的表现。这些衍生工作不仅丰富了视频生成领域的研究，也为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集