VidProM

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/WangWenhao0716/VidProM

下载链接

链接失效反馈

官方服务：

资源简介：

VidProM是首个包含167万个独特文本到视频提示和669万个视频的数据集，这些视频由4种不同的最先进扩散模型生成。它启发了许多令人兴奋的新研究领域，如文本到视频提示工程、高效视频生成、假视频检测和扩散模型视频复制检测。

VidProM is the first dataset containing 1.67 million unique text-to-video prompts and 6.69 million videos generated by four different state-of-the-art diffusion models. It has inspired numerous exciting new research areas, such as text-to-video prompt engineering, efficient video generation, fake video detection, and diffusion model video replication detection.

创建时间：

2024-03-08

原始信息汇总

数据集概述

数据集名称

VidProM

数据集描述

VidProM 是首个包含1.67百万独特文本到视频提示和6.69百万视频的数据集，这些视频由4种不同的最先进的扩散模型生成。该数据集启发了多个新的研究领域，如文本到视频提示工程、高效视频生成、假视频检测和扩散模型视频复制检测。

数据集内容

VidProM_unique.csv: 包含UUID、提示、时间及6个NSFW概率。
VidProM_semantic_unique.csv: 是VidProM_unique.csv的语义唯一版本。
VidProM_embed.hdf5: 包含由OpenAI的最新文本嵌入模型text-embedding-3-large生成的3072维提示嵌入。
original_files: 包含从官方Pika Discord收集的HTML文件，根据CC BY-NC 4.0许可发布。
pika_videos, vc2_videos, t2vz_videos, ms_videos: 分别由4种不同的文本到视频扩散模型生成的视频，每个目录包含30个tar文件。

数据集下载

可通过Hugging Face或Wisemodel下载。
自动下载可通过安装datasets库并使用以下代码实现： python import numpy as np from datasets import load_dataset dataset = load_dataset(WenhaoWang/VidProM)
手动下载可通过wget命令实现，例如：

wget https://huggingface.co/datasets/WenhaoWang/VidProM/resolve/main/VidProM_unique.csv

数据集许可证

由Pika生成的提示和视频根据CC BY-NC 4.0许可发布。
VideoCraft2、Text2Video-Zero和ModelScope的视频分别根据Apache许可证、CreativeML Open RAIL-M许可证和CC BY-NC 4.0许可证发布。
代码根据CC BY-NC 4.0许可证发布。

搜集汇总

数据集介绍

构建方式

VidProM数据集的构建基于四种最先进的文本到视频扩散模型，生成了1.67万个独特的文本提示和6.69万个视频。这些视频和提示通过UUID进行唯一标识，并包含了时间戳和6个NSFW（不适宜工作场所）概率评分。数据集的构建过程中，使用了最新的文本嵌入模型text-embedding-3-large来生成3072维的提示嵌入，确保了数据的多样性和语义丰富性。

特点

VidProM数据集的显著特点在于其规模庞大，包含了百万级别的文本提示和视频数据，且这些数据来源于四种不同的先进扩散模型，确保了数据的多样性和代表性。此外，数据集还包含了语义独特的提示版本和嵌入向量，便于进行深度学习和语义分析。数据集的结构化设计使得用户可以轻松地进行数据加载和处理，支持多种研究方向，如文本到视频提示工程、高效视频生成和假视频检测等。

使用方法

用户可以通过Hugging Face平台或Wisemodel平台下载VidProM数据集。数据集支持自动下载和手动下载两种方式，用户可以通过pip安装datasets库后，使用load_dataset函数自动下载数据。此外，数据集还提供了详细的PyTorch Dataloader和WebDataset示例，帮助用户快速加载和处理数据。数据集的结构化设计使得用户可以轻松地访问视频、提示、时间戳和嵌入向量等信息，适用于多种深度学习和计算机视觉任务。

背景与挑战

背景概述

VidProM数据集是由Wenhao Wang和Yi Yang教授在2024年提出的，旨在为文本到视频扩散模型提供一个大规模的真实提示库。该数据集包含了167万个独特的文本提示和669万个由四种最先进的扩散模型生成的视频，标志着文本到视频生成领域的重大突破。VidProM不仅为文本到视频提示工程、高效视频生成、假视频检测和视频复制检测等研究领域提供了丰富的资源，还为未来的研究奠定了坚实的基础。

当前挑战

VidProM数据集的构建面临多个挑战。首先，生成如此大规模的文本到视频数据需要强大的计算资源和高效的算法支持。其次，确保生成的视频与文本提示的高度一致性是一个技术难题。此外，数据集的多样性和质量控制也是关键挑战，尤其是在处理可能包含不适当内容的视频时。最后，如何有效地存储和分发如此大规模的数据集，以便全球研究者能够便捷地访问和使用，也是一个重要的技术挑战。

常用场景

经典使用场景

VidProM数据集以其庞大的规模和多样性，成为文本到视频扩散模型的理想研究平台。该数据集包含了167万条独特的文本提示和669万条由四种最先进的扩散模型生成的视频，广泛应用于文本到视频提示工程、高效视频生成、虚假视频检测以及视频复制检测等领域。通过这些丰富的数据，研究者能够深入探索文本与视频之间的复杂关系，推动相关技术的创新与发展。

解决学术问题

VidProM数据集解决了文本到视频生成领域中的多个关键学术问题。首先，它为研究者提供了大规模的真实文本提示和生成的视频数据，有助于深入理解文本与视频之间的映射关系。其次，数据集支持高效视频生成和虚假视频检测的研究，为提升视频生成质量和检测虚假内容的准确性提供了有力支持。此外，VidProM还为视频复制检测提供了丰富的数据资源，推动了相关技术的进步。

衍生相关工作

VidProM数据集的发布催生了一系列相关研究工作。研究者利用该数据集进行文本到视频提示工程的研究，探索如何通过优化提示生成更高质量的视频。同时，数据集也为高效视频生成算法的设计提供了实验基础，推动了视频生成技术的进步。此外，VidProM还激发了虚假视频检测和视频复制检测领域的研究，为这些领域的技术发展提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集