OpenVid-1M

arXiv2024-07-02 更新2024-07-04 收录

下载链接：

https://nju-pcalab.github.io/projects/openvid

下载链接

链接失效反馈

资源简介：

OpenVid-1M是由南京大学、字节跳动和南开大学联合创建的一个大规模高质量文本到视频生成数据集。该数据集包含超过100万个视频片段，每个视频具有至少512×512的高分辨率，并配有详细的字幕。数据集的创建过程严格筛选了美学、时间一致性、运动差异和清晰度等方面，确保了视频的高质量。OpenVid-1M主要应用于文本到视频生成领域，旨在解决现有数据集质量不高或过于庞大的问题，推动高清晰度视频生成技术的发展。

OpenVid-1M is a large-scale high-quality text-to-video generation dataset jointly created by Nanjing University, ByteDance and Nankai University. This dataset contains over one million video clips, each with a high resolution of at least 512×512 and paired with detailed subtitles. Strict screening was conducted during the dataset's construction based on criteria including aesthetics, temporal consistency, motion diversity and clarity, to ensure the high quality of the included videos. OpenVid-1M is primarily applied in the field of text-to-video generation, aiming to address the issues of low-quality or overly large existing datasets and promote the development of high-definition video generation technologies.

提供机构：

南京大学, 字节跳动, 南开大学

创建时间：

2024-07-02

原始信息汇总

数据集概述

数据集名称

OpenVid-1M

数据集描述

OpenVid-1M 是一个大规模的高质量文本到视频生成数据集。

数据集目的

该数据集旨在为研究机构提供高质量的视频数据，以提升视频质量，具有高美学、清晰度和分辨率。它可以直接用于训练或作为其他视频数据集的质量调优补充。

数据集作者

Kepan Nan
Rui Xie
Penghao Zhou
Tiehan Fan
Zhenheng Yang
Zhijie Chen
Xiang Li
Jian Yang
Ying Tai

作者机构

南京大学
字节跳动
南开大学

数据集链接

AI搜集汇总

数据集介绍

构建方式

OpenVid-1M数据集的构建过程经过精心设计，以确保高质量的视频与详细的文本描述相匹配。首先，从多个公开数据集（如Panda、ChronoMagic、Open-Sora-plan和CelebvHQ）中筛选出高美学评分、时间一致性和清晰度的视频。随后，通过多模态模型LLaVA-v1.6-34b生成详细的视频描述。此外，为了推进高清视频生成研究，从OpenVid-1M中精选出433K个1080p视频，形成OpenVidHD-0.4M子集。

使用方法

OpenVid-1M数据集可用于训练和验证文本到视频生成模型。研究者可以使用该数据集来训练新的模型，或通过对比实验来评估现有模型的性能。数据集中的详细描述和高清视频为模型提供了丰富的语义和视觉信息，有助于提升生成视频的质量和准确性。此外，OpenVidHD-0.4M子集特别适用于高清视频生成的研究，为推进该领域的技术发展提供了有力支持。

背景与挑战

背景概述

近年来，文本到视频（Text-to-Video, T2V）生成技术因其在大规模多模态模型如Sora的推动下获得了显著关注。然而，T2V生成仍面临两大关键挑战：缺乏精确的高质量开放数据集，以及未能充分利用文本信息。为应对这些挑战，南京大学、字节跳动和南开大学的研究团队联合推出了OpenVid-1M数据集。该数据集包含超过一百万个高质量视频片段，分辨率至少为512×512，并附有详细的描述性字幕。OpenVid-1M不仅在数量上精确，而且在质量上优于现有的WebVid-10M和Panda-70M数据集，为T2V生成研究提供了宝贵的资源。

当前挑战

OpenVid-1M数据集的构建过程中面临两大主要挑战。首先，缺乏精确的高质量开放数据集。现有的WebVid-10M和Panda-70M数据集要么质量较低，要么规模过大，难以满足大多数研究机构的需求。其次，现有的T2V方法主要依赖视觉变换器，通过简单的交叉注意力模块生成视频，未能充分提取文本提示中的语义信息。为解决这些问题，OpenVid-1M通过严格筛选美学、时间一致性、运动差异和清晰度，确保了视频的高质量。此外，数据集的构建还涉及从多个公开数据集中筛选和整合视频片段，确保每个视频片段仅包含一个场景，并使用大型多模态模型LLaVA-v1.6-34b生成详细的描述性字幕。

常用场景

经典使用场景

OpenVid-1M数据集在文本到视频生成领域中扮演着至关重要的角色。其经典使用场景包括利用该数据集训练和验证文本到视频生成模型，特别是在处理高分辨率视频生成任务时。通过提供高质量的视频片段和详细的文本描述，OpenVid-1M使得研究者能够开发出能够准确理解和生成复杂视频内容的模型。

解决学术问题

OpenVid-1M数据集解决了文本到视频生成领域中的两个关键学术问题：一是缺乏高质量的开源数据集，二是现有方法未能充分利用文本信息。通过提供精确的高质量视频片段和丰富的文本描述，OpenVid-1M为研究者提供了一个理想的研究平台，推动了文本到视频生成技术的发展，特别是在高分辨率视频生成方面。

实际应用

在实际应用中，OpenVid-1M数据集可用于开发和优化各种视频生成应用，如电影和广告制作中的自动视频生成、虚拟现实和增强现实中的动态内容生成，以及教育领域的互动视频制作。通过提供高质量的视频素材和详细的文本描述，该数据集有助于提升这些应用的生成质量和用户体验。

数据集最近研究