OpenVid-1M

Hugging Face2024-06-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/nkp37/OpenVid-1M

下载链接

链接失效反馈

官方服务：

资源简介：

OpenVid-1M是一个大规模高质量的文本到视频数据集，专为研究机构提升视频质量而设计，具有高美学、清晰度和分辨率。该数据集包含至少512x512分辨率的视频，并从中精选出433K个1080p视频。它适用于直接训练或作为其他视频数据集的质量调整补充。数据集中的所有视频均符合CC-BY-4.0许可，且提供了详细的下载和使用指南。

创建时间：

2024-06-11

原始信息汇总

数据集概述

基本信息

许可证: CC-BY-4.0
任务类别: 文本到视频
语言: 英语
标签: 文本到视频, 视频生成模型训练, 文本到视频扩散模型训练, 提示
数据集名称: OpenVid-1M
数据集大小: 1M<n<10M

数据集描述

OpenVid-1M 是一个高质量的文本到视频数据集，专为研究机构设计，旨在提升视频质量。该数据集具有高美学、清晰度和分辨率，可用于直接训练或作为其他视频数据集的质量调优补充。所有视频的分辨率至少为 512×512，并且从中精选了 433K 1080p 视频创建了 OpenVidHD，以推进高清视频生成。

数据集结构

DATA_PATH └─ data └─ train └─ OpenVid-1M.csv └─ OpenVidHD.csv └─ OpenVid_part0.zip └─ OpenVid_part1.zip └─ OpenVid_part2.zip └─ ...

下载方式

数据集可通过提供的下载脚本或使用 wget 命令进行下载。

使用方法

数据集文件可通过 unzip 命令解压，部分大文件已拆分为多个小文件，可通过 cat 命令恢复。OpenVid-1M.csv 和 OpenVidHD.csv 包含文本-视频对，可通过 pandas 读取。

模型权重

提供了在 OpenVid-1M 上预训练的模型权重。

许可证

数据集以 CC-BY-4.0 许可证发布，视频样本来自公开可用的数据集，用户必须遵守相关许可证。

引用

@article{nan2024openvid, title={OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation}, author={Nan, Kepan and Xie, Rui and Zhou, Penghao and Fan, Tiehan and Yang, Zhenheng and Chen, Zhijie and Li, Xiang and Yang, Jian and Tai, Ying}, journal={arXiv preprint arXiv:2407.02371}, year={2024} }

搜集汇总

数据集介绍

构建方式

OpenVid-1M数据集的构建过程体现了大规模高质量视频数据的系统性收集与整理。该数据集通过从公开可用的视频资源中筛选出分辨率不低于512×512的视频，确保了数据的高清晰度和美学质量。在此基础上，进一步精选了43.3万条1080p视频，形成了OpenVidHD子集，为高清视频生成研究提供了更为精细的素材。数据集的构建不仅注重视频质量，还通过文本-视频对的标注，为文本到视频生成任务提供了丰富的训练样本。

特点

OpenVid-1M数据集以其大规模和高品质著称，涵盖了超过百万条视频数据，每条视频均具备高分辨率和高美学价值。其独特的OpenVidHD子集进一步提升了视频的清晰度，为高清视频生成任务提供了强有力的支持。此外，数据集中的文本-视频对标注为文本到视频生成模型提供了丰富的语义信息，使其在生成视频时能够更好地理解文本描述并生成符合预期的内容。这一特点使得OpenVid-1M成为文本到视频生成领域的重要资源。

使用方法

OpenVid-1M数据集的使用方法灵活多样，用户可以通过下载脚本或直接使用wget命令获取数据文件。数据集以分卷压缩包的形式提供，用户可通过unzip命令解压并整合视频文件。文本-视频对信息存储于CSV文件中，用户可使用Pandas库轻松读取和处理。此外，数据集还提供了预训练模型权重，用户可直接加载并用于视频生成任务。OpenVid-1M的开放性和易用性使其成为文本到视频生成研究的理想选择。

背景与挑战

背景概述

OpenVid-1M数据集由南京大学PCALab团队于2024年提出，旨在推动文本到视频生成领域的研究。该数据集包含超过一百万条高质量的视频-文本对，视频分辨率均不低于512×512，部分视频甚至达到1080p高清标准。OpenVid-1M的创建标志着文本到视频生成领域的一个重要里程碑，为研究人员提供了丰富的训练数据，支持视频生成模型的直接训练或作为其他数据集的补充。该数据集不仅提升了生成视频的美学质量和清晰度，还为高分辨率视频生成技术的发展奠定了基础。

当前挑战

OpenVid-1M数据集在构建过程中面临多重挑战。首先，文本到视频生成领域对数据质量要求极高，视频需具备高分辨率、清晰度和美学价值，这对数据采集和筛选提出了严格标准。其次，数据集的规模庞大，视频文件的存储、传输和处理需要高效的技术支持，尤其是在处理超过50GB的大文件时，数据分割与恢复成为技术难点。此外，数据集的版权问题也需谨慎处理，确保所有视频样本均来自公开数据集并遵守相关许可协议。这些挑战不仅体现在数据集的构建过程中，也反映了文本到视频生成领域在数据质量和规模上的高要求。

常用场景

经典使用场景

OpenVid-1M数据集在文本到视频生成领域具有广泛的应用，尤其是在训练高质量视频生成模型时。其高分辨率和高美学的视频内容为研究人员提供了丰富的素材，能够直接用于模型训练或作为其他视频数据集的补充，提升生成视频的质量和清晰度。

实际应用

在实际应用中，OpenVid-1M数据集被广泛用于视频内容创作、广告制作以及虚拟现实等领域。其高质量的视频素材能够帮助创作者快速生成符合需求的视频内容，提升创作效率和视觉效果，同时也为广告和虚拟现实应用提供了更加逼真的视觉体验。

衍生相关工作

基于OpenVid-1M数据集，研究人员开发了多种先进的文本到视频生成模型，如OpenVidHD等。这些模型在高清晰度视频生成方面取得了显著进展，进一步推动了文本到视频生成技术的发展，并为相关领域的研究提供了重要的参考和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集