nkp37/OpenVid-1M

Name: nkp37/OpenVid-1M
Creator: nkp37
Published: 2024-07-15 03:28:00
License: 暂无描述

Hugging Face2024-07-15 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/nkp37/OpenVid-1M

下载链接

链接失效反馈

官方服务：

资源简介：

OpenVid-1M是一个高质量的大规模文本到视频生成数据集，旨在为研究机构提供高质量的视频数据，具有高美学、清晰度和分辨率。该数据集中的所有视频分辨率至少为512×512，并且从中精选了433K 1080p视频创建了OpenVidHD子集，以推动高清视频生成的研究。数据集可用于直接训练或作为其他视频数据集的质量调优补充。

OpenVid-1M is a high-quality large-scale text-to-video dataset designed for research institutions to enhance video quality, featuring high aesthetics, clarity, and resolution. All videos in the OpenVid-1M dataset have resolutions of at least 512×512. Furthermore, 433K 1080p videos are curated from OpenVid-1M to create OpenVidHD, advancing high-definition video generation. The dataset can be used for direct training or as a quality tuning complement to other video datasets.

提供机构：

nkp37

原始信息汇总

数据集概述

基本信息

许可证: CC-BY-4.0
任务类别:
- text-to-video
语言:
- en
标签:
- text-to-video
- Video Generative Model Training
- Text-to-Video Diffusion Model Training
- prompts
数据集名称: OpenVid-1M
数据集大小: 1M<n<10M

数据集描述

OpenVid-1M 是一个高质量的文本到视频数据集，旨在帮助研究机构提升视频质量。该数据集具有高美学、清晰度和分辨率，可用于直接训练或作为其他视频数据集的质量调优补充。所有视频的分辨率至少为 512×512，并且从中精选了 433K 1080p 视频创建了 OpenVidHD，以推进高清视频生成。

数据集目录结构

DATA_PATH data train OpenVid-1M.csv OpenVidHD.csv OpenVid_part0.zip OpenVid_part1.zip OpenVid_part2.zip ...

下载方式

可以通过 wget 命令下载每个文件，例如：

wget https://huggingface.co/datasets/nkp37/OpenVid-1M/resolve/main/OpenVid_part0.zip wget https://huggingface.co/datasets/nkp37/OpenVid-1M/resolve/main/OpenVid_part1.zip wget https://huggingface.co/datasets/nkp37/OpenVid-1M/resolve/main/OpenVid_part2.zip ...

使用方法

可以通过 unzip 命令解压每个 OpenVid_part*.zip 文件，例如：

unzip -j OpenVid_part0.zip -d video_folder unzip -j OpenVid_part1.zip -d video_folder unzip -j OpenVid_part2.zip -d video_folder ...

对于一些较大的文件（> 50G），我们将其拆分为多个小文件，可以通过 cat 命令恢复这些文件，例如：

cat OpenVid_part73_part* > OpenVid_part73.zip unzip -j OpenVid_part73.zip -d video_folder

OpenVid-1M.csv 和 OpenVidHD.csv 包含文本-视频对，可以通过以下方式轻松读取： python import pandas df = pd.read_csv("OpenVid-1M.csv")

许可证

OpenVid-1M 以 CC-BY-4.0 许可证发布。视频样本来自公开可用的数据集，用户必须遵守相关许可证，如 Panda、ChronoMagic、Open-Sora-plan、CelebvHQ(Unknow)。

搜集汇总

数据集介绍

构建方式

OpenVid-1M数据集的构建是基于大规模文本与视频对的深度整合，旨在提升视频生成质量与美感。该数据集通过精选公开可用资源，形成了包含至少512×512分辨率的高清视频，并进一步从中提炼出433K 1080p视频以构成OpenVidHD子集，为高清视频生成研究提供了高质量的数据基础。

使用方法

使用OpenVid-1M数据集时，用户可通过提供的下载脚本来获取数据，或单独下载每个分卷的压缩文件。数据集包含的CSV文件记录了文本与视频对的配对信息，可通过Python的pandas库轻松读取。此外，对于超过50G的大文件，数据集将其拆分为多个小文件，用户可以通过合并后再解压的方式恢复完整文件。

背景与挑战

背景概述

在数字媒体研究领域，视频生成技术的进步极大地推动了多媒体内容创作的革新。OpenVid-1M数据集，作为该领域的一个重要里程碑，由南京大学计算机科学与技术系PCALab于2024年提出。该数据集旨在为文本到视频生成任务提供高质量的视频资源，其特点在于高美学价值、清晰度和分辨率。该数据集的构建，不仅为研究人员提供了直接训练的素材，也为其他视频数据集的质量调优提供了补充。OpenVid-1M的发布，对于提升视频生成模型的性能，以及推动相关应用的发展具有重要的研究价值和实际意义。

当前挑战

OpenVid-1M数据集在构建过程中面临的挑战主要包括：一是确保大规模视频数据的高质量和多样性，二是实现文本描述与视频内容的高度一致性和准确性。此外，数据集的存储和传输也面临挑战，由于视频文件体积庞大，需要有效分割和压缩以保证数据集的可访问性和可用性。在研究领域问题方面，如何利用该数据集训练出能够生成高质量视频的模型，以及如何优化模型以处理复杂文本描述，生成与之匹配的视频内容，是当前的主要挑战。

常用场景

经典使用场景

在当前的计算机视觉研究领域，文本到视频的生成是极具挑战性的课题。OpenVid-1M数据集因其高质量的视频样本和对应的文本描述，成为了此类研究的经典数据源。该数据集广泛用于视频生成模型的训练，通过学习文本与视频之间的复杂映射关系，推动文本到视频生成技术的发展。

解决学术问题

OpenVid-1M数据集解决了传统视频生成中存在的质量低下、分辨率不足以及缺乏与文本描述对应的高质量视频样本等问题。它为研究人员提供了一个大规模、高分辨率的视频数据集，使得视频生成模型能够学习到更丰富的视觉特征，从而生成更高质量的文本驱动的视频。

实际应用

在实用层面，OpenVid-1M数据集的应用场景广泛，包括但不限于虚拟现实内容创作、在线教育视频生成、智能媒体编辑等。它为这些领域提供了强大的文本到视频自动生成能力，极大地提高了内容创作的效率和灵活性。

数据集最近研究