VidProM

Hugging Face2025-10-24 更新2025-10-25 收录

下载链接：

https://huggingface.co/datasets/bitmind/VidProM

下载链接

链接失效反馈

官方服务：

资源简介：

VidProM是一个包含167万独特文本到视频提示和669万由4种最先进的扩散模型生成的视频的数据集。它为文本到视频提示工程、高效视频生成、假视频检测以及针对扩散模型的视频复制检测等研究领域提供了灵感。

VidProM is a dataset comprising 1.67 million unique text-to-video prompts and 6.69 million videos generated by four state-of-the-art diffusion models. It has provided valuable insights and support for research in multiple key areas, including text-to-video prompt engineering, efficient video generation, fake video detection, and video copy detection targeting diffusion model-generated videos.

创建时间：

2025-10-22

原始信息汇总

VidProM 数据集概述

数据集基本信息

数据集名称：VidProM
提出论文：VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models (NeurIPS 2024)

数据集规模

提示词数量：167万个独特文本到视频提示词
视频数量：669万个生成视频
生成模型：4种不同的最先进扩散模型

研究应用领域

文本到视频提示工程
高效视频生成
伪造视频检测
扩散模型视频拷贝检测

数据集特点

首个包含百万级真实提示词库的文本到视频数据集
为文本到视频扩散模型研究提供大规模资源

搜集汇总

数据集介绍

构建方式

在文本到视频生成技术迅猛发展的背景下，VidProM数据集通过整合四种前沿扩散模型，系统性地生成了涵盖167万条独特提示文本的多样化视频内容，总计视频数量达到669万。这一构建过程确保了数据来源的广泛性和技术代表性，为大规模多模态研究奠定了坚实基础。

使用方法

研究者可基于该数据集开展多维度的实证分析，包括提示词优化策略评估、生成模型效率比较以及合成视频检测技术开发。通过调用标准化数据接口，用户能够高效提取文本-视频配对样本，进而推动跨模型泛化能力和版权保护等前沿课题的深入探索。

背景与挑战

背景概述

随着生成式人工智能的迅猛发展，文本到视频生成技术逐渐成为多媒体计算领域的前沿研究方向。VidProM数据集由研究团队在2024年神经信息处理系统大会上首次提出，作为首个百万规模的真实提示-图库数据集，它汇集了167万条独特文本提示及基于四种先进扩散模型生成的669万条视频，为探索文本驱动视频合成的机制与优化提供了关键实证基础。该数据集的构建标志着生成模型研究从静态图像向动态视频的重要跨越，对推动提示工程、高效生成等子领域的标准化发展具有里程碑意义。

当前挑战

文本到视频生成领域长期面临提示语义对齐与生成内容多样性的平衡难题，VidProM针对扩散模型存在的动态时序连贯性不足、多模态语义歧义消除等核心问题构建评估基准。在数据集构建过程中，研究人员需克服海量提示词去重清洗、跨模型生成质量一致性控制，以及视频元数据与生成参数的复杂关联标注等工程挑战，其大规模多源特性也为存储效率与计算资源分配带来了前所未有的压力。

常用场景

经典使用场景

在生成式人工智能领域，VidProM数据集作为首个百万规模文本到视频提示库，其核心应用聚焦于提示工程优化研究。通过整合167万独特提示与669万生成视频，该数据集为探索提示语义与视频内容间的映射关系提供了丰富样本，助力研究者系统分析不同提示结构对生成质量的影响，进而推动提示设计范式的标准化与自动化。

解决学术问题

该数据集有效解决了生成模型领域缺乏大规模可量化评估基准的难题。通过覆盖四种前沿扩散模型生成结果，它为视频生成一致性、跨模型泛化性等关键问题提供了实证研究基础。其构建不仅填补了文本到视频任务中数据稀缺的空白，更通过多维度元数据支撑了生成视频可信度、版权溯源等新兴研究方向的发展。

实际应用

面向产业实践，VidProM为内容创作平台提供了重要的技术验证基础。广告创意、影视预可视化等领域可借助该数据集构建提示词推荐系统，提升视频生成效率。同时，安全机构可利用其海量样本训练深度伪造检测模型，而版权管理平台则能基于视频相似性分析技术，构建数字内容溯源保护机制。

数据集最近研究