WenhaoWang/VidProM

Name: WenhaoWang/VidProM
Creator: WenhaoWang
Published: 2024-05-14 12:36:01
License: 暂无描述

Hugging Face2024-05-14 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/WenhaoWang/VidProM

下载链接

链接失效反馈

官方服务：

资源简介：

VidProM是一个包含167万条独特文本到视频提示和669万条由4种不同的最先进扩散模型生成的视频的数据集。它是首个此类数据集，旨在激发新的研究领域，如文本到视频提示工程、高效视频生成、假视频检测和扩散模型的视频复制检测。数据集包含多个文件，如VidProM_unique.csv、VidProM_semantic_unique.csv、VidProM_embed.hdf5等，以及由Pika、VideoCraft2、Text2Video-Zero和ModelScope生成的视频文件。数据集的使用受CC BY-NC 4.0许可证和其他相关许可证的约束。

提供机构：

WenhaoWang

原始信息汇总

数据集概述

数据集名称: VidProM

数据集大小: 1M<n<10M

数据集来源: 原始数据

数据集语言: 英语

数据集许可证: CC BY-NC 4.0

数据集任务类别:

文本到视频
文本到图像

数据集标签:

提示
文本到视频
文本到图像
Pika
VideoCraft2
Text2Video-Zero
ModelScope
视频生成模型评估
文本到视频扩散模型开发
文本到视频提示工程
高效视频生成
假视频检测
扩散模型视频复制检测

数据集内容

主要文件:

VidProM_unique.csv: 包含UUID、提示、时间及6个NSFW概率。
VidProM_semantic_unique.csv: VidProM_unique.csv的语义唯一版本。
VidProM_embed.hdf5: 包含3072维的提示嵌入，使用OpenAI的最新文本嵌入模型。

视频文件:

pika_videos, vc2_videos, t2vz_videos, ms_videos: 由4种最先进的文本到视频扩散模型生成的视频，每个包含30个tar文件。

其他文件:

original_files: 来自官方Pika Discord的HTML文件。
example: 包含10,000个数据点的子文件夹。

数据集下载

自动下载:

使用datasets库自动下载。

手动下载:

通过wget手动下载每个文件。

中国用户:

通过Wisemodel合作，提供更快的下载服务。

数据集使用

数据集读取:

VidProM_unique.csv 和 VidProM_semantic_unique.csv 可通过Pandas读取。
VidProM_embed.hdf5 可通过h5py读取，提取UUID和嵌入特征。

数据集比较

与DiffusionDB的比较:

提供详细的比较图表和可视化，具体内容请参阅论文。

数据集创建者

创建者:

Wenhao Wang
Professor Yi Yang

数据集许可证

许可证详情:

提示和视频生成内容遵循CC BY-NC 4.0许可证。
视频来自不同模型，遵循Apache、CreativeML Open RAIL-M和CC BY-NC 4.0许可证。

数据集引用

引用格式:

@article{wang2024vidprom, title={VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models}, author={Wang, Wenhao and Yang, Yi}, journal={arXiv preprint arXiv:2403.06098}, year={2024} }

联系方式

联系人: Wenhao Wang

邮箱: wangwenhao0716@gmail.com

搜集汇总

数据集介绍

构建方式

在文本到视频生成技术迅猛发展的背景下，VidProM数据集的构建体现了对大规模真实用户提示的系统性采集与处理。该数据集的核心来源于Pika官方Discord社区，通过DiscordChatExporter工具自动化收集原始HTML文件，确保了数据来源的真实性与时效性。随后，研究团队利用四种前沿的文本到视频扩散模型——包括Pika、VideoCraft2、Text2Video-Zero和ModelScope——对167万条独特提示进行并行视频生成，最终产出了总计669万条视频数据。整个构建过程严格遵循数据清洗与去重流程，并辅以OpenAI的text-embedding-3-large模型为每条提示生成3072维语义嵌入，从而形成了结构完整、多模态关联的数据集合。

使用方法

针对文本到视频生成模型的研究与开发，VidProM数据集提供了灵活多样的使用途径。研究者可通过Hugging Face的datasets库直接加载数据集，或使用wget命令手动下载特定组件。核心元数据存储于CSV文件中，可使用pandas库便捷读取；高维嵌入则保存为HDF5格式，通过h5py库即可访问。对于视频文件，数据集按生成模型分目录存储为压缩包格式。在实际应用中，该数据集可用于训练提示优化模型、评估不同生成模型的性能差异、开发高效视频生成算法，以及构建深度伪造检测系统。数据集中提供的语义嵌入更可直接用于提示聚类、相似性检索等任务。中国用户可通过Wisemodel平台获得加速下载服务。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，文本到视频生成领域正经历着前所未有的变革。2024年，由Wenhao Wang与Yi Yang教授团队创建的VidProM数据集应运而生，作为首个百万级规模的文本-视频提示库，收录了167万条独特提示文本及基于Pika、VideoCraft2等四种前沿扩散模型生成的669万条视频。该数据集在NeurIPS 2024会议上正式发布，其核心研究目标在于构建一个真实、大规模的多模型生成视频基准，以推动文本到视频提示工程、高效视频生成、深度伪造检测等新兴研究方向的发展，为评估和提升扩散模型的生成质量与多样性提供了至关重要的数据基础。

当前挑战

在文本到视频生成领域，模型面临着对复杂语义理解、时序连贯性保持以及多模态对齐的严峻挑战。VidProM数据集的构建过程同样面临多重困难：首先需要从真实用户交互场景中大规模采集高质量提示文本，并确保其语义多样性与创造性；其次需协调四种异构扩散模型生成数百万视频，涉及计算资源调度与生成质量控制的平衡；此外还需设计有效的去重机制与语义编码方案，以应对提示文本的冗余问题；最后在数据合规性方面，需妥善处理不同模型生成内容的版权许可差异，确保数据集在法律框架下的可访问性与研究价值。

常用场景

经典使用场景

在文本到视频生成领域，VidProM数据集以其百万级真实提示词库与多模型生成视频的规模，为研究者提供了评估与优化扩散模型性能的基准平台。该数据集通过整合Pika、VideoCraft2等前沿模型生成的视频，支持对提示词工程、生成效率及内容多样性的系统性分析，成为推动文本到视频技术发展的核心资源。

解决学术问题

VidProM数据集有效应对了文本到视频研究中缺乏大规模、高质量真实提示词与生成视频配对数据的挑战。它通过提供涵盖多模型、多场景的丰富样本，助力解决提示词设计优化、生成模型公平性评估、以及合成视频检测等关键学术问题，为扩散模型的可靠性与泛化能力研究奠定了数据基础。

实际应用

在实际应用层面，VidProM数据集为视频内容创作、教育媒体制作以及娱乐产业提供了强大的技术支持。基于该数据集训练的模型能够更精准地理解复杂提示词，生成高质量、多样化的视频内容，从而提升自动化视频生产的效率与创意表现，满足商业与创意领域对动态视觉内容的迫切需求。

数据集最近研究