TencentARC/MiraData

Name: TencentARC/MiraData
Creator: TencentARC
Published: 2024-07-19 03:04:42
License: 暂无描述

Hugging Face2024-07-19 更新2024-07-13 收录

下载链接：

https://hf-mirror.com/datasets/TencentARC/MiraData

下载链接

链接失效反馈

官方服务：

资源简介：

MiraData是一个大规模视频数据集，专门设计用于长视频生成任务。该数据集旨在解决现有文本-视频数据集在处理长视频序列和捕捉镜头转换方面的不足。MiraData包含330K、93K、42K和9K四个版本的数据，每个视频剪辑都有详细的元数据信息，包括剪辑ID、视频来源、视频URL、视频ID、视频宽度、高度、帧率、持续时间、时间戳、帧数、文件路径以及多种类型的字幕（如短字幕、密集字幕、背景字幕、主对象字幕、风格字幕和摄像机移动字幕）。此外，MiraData还引入了MiraBench，通过增加3D一致性和基于跟踪的运动强度指标来增强现有基准。

MiraData is a large-scale video dataset specifically designed for long video generation tasks. The dataset includes four versions with 330K, 93K, 42K, and 9K data entries. The meta file provides detailed information about the video clips, including clip index, source, URL, dimensions, frame rate, duration, timestamps, frame number, file path, and various captions such as short caption, dense caption, background caption, main object caption, style caption, and camera move caption. Additionally, the dataset provides scripts for downloading videos and splitting them into clips.

提供机构：

TencentARC

原始信息汇总

MiraData: 大规模视频数据集

数据集概述

名称: MiraData
任务类别:
- 图像到视频
- 文本到图像
- 文本到视频
- 视频分类
语言: 英语
标签: 艺术
规模: 100K<n<1M

数据集详情

版本: 包含330K、93K、42K、9K数据
元文件:
- clip_id: 视频片段索引，由{download_id}.{clip_id}组成
- source: 视频下载来源和类别
- video_url: 视频源URL
- video_id: 源网站中的视频ID
- width: 视频宽度
- height: 视频高度
- fps: 用于提取帧的视频帧率
- seconds: 视频片段的时长
- timestamp: 视频片段在源视频中的起始和结束时间戳
- frame_number: 视频片段的帧数
- framestamp: 视频片段在源视频中的起始和结束帧
- file_path: 存储视频片段的文件路径
- short_caption: 简短的总体描述
- dense_caption: 密集的总体描述
- background_caption: 视频背景描述
- main_object_caption: 视频中主要对象的描述
- style_caption: 视频风格的描述
- camera_caption: 摄像机移动的描述

下载

脚本: 使用download_data.py脚本下载视频并分割成片段
- 参数:
  - meta_csv: 元文件
  - download_start_id: 下载起始ID
  - download_end_id: 下载结束ID
  - raw_video_save_dir: 保存原始视频的路径
  - clip_video_save_dir: 保存分割视频的路径

引用

@misc{ju2024miradatalargescalevideodataset, title={MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions}, author={Xuan Ju and Yiming Gao and Zhaoyang Zhang and Ziyang Yuan and Xintao Wang and Ailing Zeng and Yu Xiong and Qiang Xu and Ying Shan}, year={2024}, eprint={2407.06358}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2407.06358}, }

联系信息

邮箱: mira-x@googlegroups.com

搜集汇总

数据集介绍

构建方式

在视频生成研究领域，数据集的构建需兼顾规模与结构化标注。MiraData的构建过程体现了系统性设计，其从多个公开视频源采集原始素材，依据预设标准进行剪辑分割，形成从9K至330K不等的多个版本。每个视频片段均通过自动化与人工结合的方式，生成了包括简短描述、密集描述、背景、主体对象、风格及摄像机运动在内的多层次结构化文本标注，从而构建了一个兼具长视频序列与精细语义描述的大规模视频数据集。

特点

MiraData的显著特征在于其专注于长视频序列与结构化字幕。与现有数据集相比，它不仅提供了大规模的视频样本，更通过精确的时间戳与帧标记记录了视频片段的起止信息，确保了时序完整性。数据集附带的多样化字幕——从整体概括到针对背景、主体、风格及摄像机运动的专项描述——为视频生成模型提供了丰富的语义监督信号，有助于提升生成内容在时间一致性与动态细节上的表现力。

使用方法

为便于研究者使用，MiraData提供了清晰的元数据文件与配套下载脚本。用户可通过指定的元数据CSV文件获取视频索引、源URL及结构化字幕等信息。利用提供的Python脚本，可指定下载ID范围，将原始视频下载至本地并依据时间戳自动切割为剪辑片段。这种设计使得数据加载与预处理流程得以标准化，支持高效地服务于视频生成、分类等多类计算机视觉任务的模型训练与评估。

背景与挑战

背景概述

在视频生成技术蓬勃发展的背景下，长序列视频的合成与理解成为计算机视觉领域的前沿课题。由腾讯ARC实验室于2024年发布的MiraData数据集，正是针对现有文本-视频数据在长视频序列处理与镜头转换捕捉方面的不足而构建。该数据集由Xuan Ju、Yiming Gao、Zhaoyang Zhang等研究人员主导，核心研究聚焦于为长视频生成任务提供大规模、高质量且具有结构化描述的资源。其通过提供长达数十秒的视频片段及细致的多维度标注，显著推动了生成模型在时序一致性与复杂场景理解方面的能力演进，为类似Sora的先进视频生成系统提供了关键数据支撑。

当前挑战

MiraData旨在应对视频生成领域中长时序连贯性与复杂动态建模的固有挑战。具体而言，现有数据集往往难以维持长视频中物体身份、场景布局与运动逻辑的跨帧一致性，且缺乏对镜头切换、摄像机运动等影视语言的结构化描述。在构建过程中，研究团队面临大规模长视频数据的采集、清洗与标注难题，尤其是如何自动化或半自动化地生成精准的密集描述（dense caption）与背景、主体、风格等多维度文本标签，同时确保视频片段的版权合规与高质量存储，这些工程与伦理层面的挑战共同塑造了数据集的最终形态。

常用场景

经典使用场景

在视频生成领域，长序列视频的合成一直面临时序一致性与镜头转换的挑战。MiraData以其大规模、长时长及结构化标注的特性，为视频生成模型提供了关键训练资源。该数据集常用于训练和评估文本到视频或图像到视频的生成模型，尤其适用于模拟复杂场景中连续动作与动态变化的生成任务，推动了长视频合成技术的边界拓展。

解决学术问题

MiraData针对现有视频数据集在长序列处理与镜头转换捕捉上的不足，提供了系统性的解决方案。它通过结构化标注（如背景、主体对象、风格及相机运动描述）支持对视频内容的多维度解析，有效促进了时序一致性建模与运动强度量化等核心学术问题的研究。该数据集不仅提升了生成视频的连贯性与真实性，还为评估指标如MiraBench的构建奠定基础，对视频生成领域的理论进展具有深远意义。

衍生相关工作

围绕MiraData，一系列经典研究工作相继涌现，进一步拓展了视频生成与理解的技术前沿。例如，结合其长时序数据开发的视频生成模型，在保持跨镜头一致性方面取得了突破；基于MiraBench的评估框架则推动了运动强度与3D一致性等新指标的标准化。这些衍生工作不仅深化了对视频结构化语义的理解，也为后续大规模多模态模型的训练提供了重要参考，持续推动着该领域的创新进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集