OpenVid-1M
收藏arXiv2024-07-02 更新2024-07-04 收录
下载链接:
https://nju-pcalab.github.io/projects/openvid
下载链接
链接失效反馈资源简介:
OpenVid-1M是由南京大学、字节跳动和南开大学联合创建的一个大规模高质量文本到视频生成数据集。该数据集包含超过100万个视频片段,每个视频具有至少512×512的高分辨率,并配有详细的字幕。数据集的创建过程严格筛选了美学、时间一致性、运动差异和清晰度等方面,确保了视频的高质量。OpenVid-1M主要应用于文本到视频生成领域,旨在解决现有数据集质量不高或过于庞大的问题,推动高清晰度视频生成技术的发展。
OpenVid-1M is a large-scale high-quality text-to-video generation dataset jointly created by Nanjing University, ByteDance and Nankai University. This dataset contains over one million video clips, each with a high resolution of at least 512×512 and paired with detailed subtitles. Strict screening was conducted during the dataset's construction based on criteria including aesthetics, temporal consistency, motion diversity and clarity, to ensure the high quality of the included videos. OpenVid-1M is primarily applied in the field of text-to-video generation, aiming to address the issues of low-quality or overly large existing datasets and promote the development of high-definition video generation technologies.
提供机构:
南京大学, 字节跳动, 南开大学
创建时间:
2024-07-02
原始信息汇总
AI搜集汇总
数据集介绍

构建方式
OpenVid-1M数据集的构建过程经过精心设计,以确保高质量的视频与详细的文本描述相匹配。首先,从多个公开数据集(如Panda、ChronoMagic、Open-Sora-plan和CelebvHQ)中筛选出高美学评分、时间一致性和清晰度的视频。随后,通过多模态模型LLaVA-v1.6-34b生成详细的视频描述。此外,为了推进高清视频生成研究,从OpenVid-1M中精选出433K个1080p视频,形成OpenVidHD-0.4M子集。
使用方法
OpenVid-1M数据集可用于训练和验证文本到视频生成模型。研究者可以使用该数据集来训练新的模型,或通过对比实验来评估现有模型的性能。数据集中的详细描述和高清视频为模型提供了丰富的语义和视觉信息,有助于提升生成视频的质量和准确性。此外,OpenVidHD-0.4M子集特别适用于高清视频生成的研究,为推进该领域的技术发展提供了有力支持。
背景与挑战
背景概述
近年来,文本到视频(Text-to-Video, T2V)生成技术因其在大规模多模态模型如Sora的推动下获得了显著关注。然而,T2V生成仍面临两大关键挑战:缺乏精确的高质量开放数据集,以及未能充分利用文本信息。为应对这些挑战,南京大学、字节跳动和南开大学的研究团队联合推出了OpenVid-1M数据集。该数据集包含超过一百万个高质量视频片段,分辨率至少为512×512,并附有详细的描述性字幕。OpenVid-1M不仅在数量上精确,而且在质量上优于现有的WebVid-10M和Panda-70M数据集,为T2V生成研究提供了宝贵的资源。
当前挑战
OpenVid-1M数据集的构建过程中面临两大主要挑战。首先,缺乏精确的高质量开放数据集。现有的WebVid-10M和Panda-70M数据集要么质量较低,要么规模过大,难以满足大多数研究机构的需求。其次,现有的T2V方法主要依赖视觉变换器,通过简单的交叉注意力模块生成视频,未能充分提取文本提示中的语义信息。为解决这些问题,OpenVid-1M通过严格筛选美学、时间一致性、运动差异和清晰度,确保了视频的高质量。此外,数据集的构建还涉及从多个公开数据集中筛选和整合视频片段,确保每个视频片段仅包含一个场景,并使用大型多模态模型LLaVA-v1.6-34b生成详细的描述性字幕。
常用场景
经典使用场景
OpenVid-1M数据集在文本到视频生成领域中扮演着至关重要的角色。其经典使用场景包括利用该数据集训练和验证文本到视频生成模型,特别是在处理高分辨率视频生成任务时。通过提供高质量的视频片段和详细的文本描述,OpenVid-1M使得研究者能够开发出能够准确理解和生成复杂视频内容的模型。
解决学术问题
OpenVid-1M数据集解决了文本到视频生成领域中的两个关键学术问题:一是缺乏高质量的开源数据集,二是现有方法未能充分利用文本信息。通过提供精确的高质量视频片段和丰富的文本描述,OpenVid-1M为研究者提供了一个理想的研究平台,推动了文本到视频生成技术的发展,特别是在高分辨率视频生成方面。
实际应用
在实际应用中,OpenVid-1M数据集可用于开发和优化各种视频生成应用,如电影和广告制作中的自动视频生成、虚拟现实和增强现实中的动态内容生成,以及教育领域的互动视频制作。通过提供高质量的视频素材和详细的文本描述,该数据集有助于提升这些应用的生成质量和用户体验。
数据集最近研究
最新研究方向
在文本到视频生成领域,OpenVid-1M数据集的最新研究方向主要集中在提升视频质量和增强文本与视频之间的语义一致性。该数据集通过精心筛选的高质量视频和详细的文本描述,为研究者提供了一个理想的平台,以探索如何更有效地利用文本信息来生成高质量的视频内容。研究者们正在开发新的多模态视频扩散变换器(MVDiT),该模型能够同时挖掘视觉和文本信息中的结构和语义信息,从而提升视频生成的质量。此外,OpenVid-1M数据集的引入也促进了高分辨率视频生成技术的发展,为未来的视频生成模型提供了更广阔的应用前景。
相关研究论文
- 1OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation南京大学, 字节跳动, 南开大学 · 2024年
以上内容由AI搜集并总结生成



