VidProM

Name: VidProM
Creator: 悉尼科技大学
Published: 2024-05-14 21:01:02
License: 暂无描述

arXiv2024-05-14 更新2024-06-21 收录

下载链接：

https://vidprom.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

VidProM是由悉尼科技大学的Wenhao Wang和浙江大学的Yi Yang共同创建的大型数据集，包含167万条独特的文本到视频提示和669万条由四个最先进的扩散模型生成的视频。数据集通过网络抓取和本地生成两种方式收集视频，利用最新的文本嵌入模型进行构建，旨在推动文本到视频提示工程、高效视频生成、假视频检测和视频复制检测等研究领域的发展。VidProM数据集的应用领域广泛，包括但不限于视频内容的自动生成和视频版权保护。

VidProM is a large-scale dataset co-created by Wenhao Wang from the University of Technology Sydney and Yi Yang from Zhejiang University. It contains 1.67 million unique text-to-video prompts and 6.69 million videos generated by four state-of-the-art diffusion models. The dataset collects videos via two approaches: web scraping and local generation, and is constructed using the latest text embedding models. It aims to advance research in fields including text-to-video prompt engineering, efficient video generation, deepfake video detection, and video copy detection. The VidProM dataset has broad application scenarios, including but not limited to automatic video content generation and video copyright protection.

提供机构：

悉尼科技大学

创建时间：

2024-03-10

搜集汇总

数据集介绍

构建方式

在文本到视频生成领域，VidProM数据集的构建体现了对真实用户交互数据的系统性采集与处理。该数据集通过从Pika Discord官方频道收集2023年7月至2024年2月期间的聊天记录，利用DiscordChatExporter工具提取HTML文件，并运用正则表达式从中解析出文本提示及其时间戳。随后，团队过滤了用于图像到视频生成的提示以及未关联视频的条目，并移除重复内容，为每个独特提示分配了通用唯一标识符。最终，通过OpenAI的text-embedding-3-large模型将提示嵌入为3072维向量，同时使用Detoxify模型为每个提示分配了包括毒性、淫秽内容等六个维度的NSFW概率。视频数据不仅通过网页抓取获取Pika生成的视频，还利用Pika、Text2Video-Zero、VideoCraft2和ModelScope这四种先进的扩散模型在本地服务器上生成了大量视频，整个过程动用了10台服务器，每台配备8块Nvidia V100 GPU，累计消耗约50,631 GPU小时，生成了总计约6.69百万个视频。

特点

VidProM数据集在文本到视频生成领域展现出多方面的显著特征。其核心在于包含了167万条来自真实用户的独特文本提示，以及由四种前沿扩散模型生成的669万个视频，构成了目前规模最大的文本-视频对集合之一。这些提示通常具有动态性、复杂性和较长的文本长度，能够描述时间维度变化和对象动态行为，与文本到图像提示存在明显的语义差异。数据集还提供了高维度的文本嵌入向量和细致的NSFW概率标注，增强了其在内容安全分析和语义理解方面的应用价值。此外，通过语义去重处理得到的VidProS子集确保了提示之间的高语义多样性，为研究提供了更广泛的主题覆盖。数据集的多样性和规模为探索文本到视频提示工程、高效视频生成、虚假视频检测等新兴研究方向奠定了坚实基础。

使用方法

VidProM数据集为文本到视频生成及相关多模态学习任务提供了丰富的资源。研究人员可利用该数据集进行视频生成模型的评估，通过大规模真实用户提示来测试模型的泛化能力和实用性，从而推动更贴近实际应用的评估标准。在模型开发方面，数据集中的提示-生成视频对可用于训练或蒸馏新的扩散模型，有助于探索合成数据在缓解训练数据短缺和版权问题方面的潜力。对于提示工程研究，VidProM为自动提示补全、优化人机交互提供了充足的语料。在高效视频生成领域，研究者可通过检索相似提示并基于现有视频重建新内容，避免从零生成的计算开销。此外，该数据集还可支持虚假视频检测模型的训练，通过分析数百万生成视频的特征来提高鉴别真伪视频的准确性，并可用于视频复制检测研究，帮助识别潜在的内容复制和版权问题。在多模态学习任务中，如视频-文本检索和视频描述生成，VidProM的合成视频-文本对提供了一种规避版权争议且无需人工标注的数据来源。

背景与挑战

背景概述

随着Sora等文本到视频扩散模型的兴起，视频生成技术迈入新纪元，但模型性能高度依赖提示词，而该领域缺乏公开的大规模提示词数据集。为此，悉尼科技大学与浙江大学的研究团队于2024年推出了VidProM数据集，作为首个百万级真实用户文本到视频提示库。该数据集包含167万条独特提示词及由Pika、VideoCraft2等四种前沿扩散模型生成的669万条视频，旨在填补文本到视频提示词研究的空白，推动提示工程、高效生成及虚假视频检测等方向的发展。

当前挑战

在文本到视频生成领域，核心挑战在于如何设计能够精确描述动态场景与时间维度的复杂提示词，以生成高质量、连贯的视频内容。VidProM的构建过程亦面临显著挑战：首先，从海量Discord聊天记录中提取并清洗提示词需处理语义冗余与不安全内容过滤；其次，利用四种扩散模型生成视频耗费超过5万GPU小时，计算资源消耗巨大；此外，确保数据多样性与语义独特性需采用先进的文本嵌入模型进行去重，技术复杂度较高。

常用场景

经典使用场景

在文本到视频生成领域，VidProM数据集作为首个大规模真实用户提示-生成视频对集合，其经典应用场景在于为扩散模型的评估与优化提供基准。该数据集汇集了来自Pika官方Discord频道的167万条独特提示，并基于四种前沿扩散模型生成了669万条视频，涵盖了从动态场景描述到复杂叙事结构的多样化内容。研究者可借助这些真实用户创作的提示，系统评估不同模型在语义理解、时序连贯性和视觉保真度等方面的性能，从而推动生成质量的量化比较与迭代改进。

解决学术问题

VidProM的构建有效解决了文本到视频研究中缺乏高质量、大规模提示-视频配对数据的核心瓶颈。传统研究多依赖于人工撰写的视频描述或有限规模的合成数据，难以捕捉真实用户提示的复杂性与多样性。该数据集通过提供海量真实用户提示及其对应生成视频，为提示工程、模型蒸馏、生成效率优化等关键研究方向奠定了数据基础。其意义在于首次将文本到视频生成的研究视角从受限的实验室环境拓展至真实应用场景，为模型泛化能力与实用化部署提供了至关重要的实证支撑。

衍生相关工作

基于VidProM数据集，学术界已衍生出多个具有影响力的研究方向。在提示工程领域，研究者利用其训练大型语言模型实现自动提示补全与优化；在生成效率方面，提出了基于提示语义检索的视频重构方法以规避从头生成的计算开销。该数据集还催生了针对扩散模型的视频复制检测研究，通过分析生成内容与训练数据的相似性探讨版权保护机制。此外，在跨模态学习任务中，合成视频-文本对为视频检索、视频描述生成等任务提供了免版权争议的训练数据，推动了多模态表征学习的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集