VPO Dataset
收藏arXiv2025-03-26 更新2025-03-28 收录
下载链接:
https://github.com/thu-coai/VPO
下载链接
链接失效反馈资源简介:
VPO数据集是由清华大学知识工程组(KEG)和智谱AI共同构建的,用于训练和优化视频提示生成模型。该数据集包含了大约18000个通用查询和2000个与安全性相关的查询,旨在帮助模型生成无害、准确、有用的视频提示。数据集通过精心设计的查询和提示对,以及基于原则的批评和细化过程构建而成,用于提升文本到视频生成模型的质量和安全性。
提供机构:
清华大学
创建时间:
2025-03-26
原始信息汇总
VPO数据集概述
数据集简介
VPO(Video Prompt Optimization)是一个用于优化文本到视频生成模型提示的高质量数据集,旨在解决视频生成模型在推理阶段因输入提示不清晰导致的输出质量下降问题。
数据集内容
- 数据类型:包含视频提示优化的SFT(Supervised Fine-Tuning)数据集和为CogVideoX构建的DPO(Direct Preference Optimization)数据。
- 数据特点:
- 强调无害性:确保提示内容安全、尊重且无有害或冒犯性内容。
- 保持意图对齐:完全保留用户意图,整合原始查询中的所有相关细节。
- 高质量视频生成:提供描述性、生动的提示,适合生成高质量视频。
数据集获取
- 下载地址:Hugging Face
模型关联
- 基础模型:LLaMA3-8B-Instruct
- 优化模型下载:Hugging Face
快速开始
数据构建
-
运行提示优化脚本: bash bash multi_infer.sh
-
处理生成的数据: bash python process_data.py
-
使用GPT-4进行评价和优化: bash python gpt4o_infer.py
模型训练
-
监督微调(SFT): bash llamafactory-cli train configs/sft.yaml
-
直接偏好优化(DPO): bash llamafactory-cli train configs/dpo.yaml
相关资源
- 训练代码:LLaMA-Factory
- 奖励模型:VisionReward
- 视频生成模型:CogVideoX
AI搜集汇总
数据集介绍

构建方式
在视频生成模型快速发展的背景下,VPO数据集的构建采用了双阶段优化框架。研究团队首先基于安全性和对齐性原则,通过大型语言模型(LLMs)的上下文学习能力构建了初始的监督微调(SFT)数据集,随后对数据进行基于原则的批判和精炼。在偏好优化阶段,创新性地结合了文本级和视频级反馈,利用直接偏好优化(DPO)方法训练模型,确保生成的提示词能产生更安全、更精准的视频输出。
使用方法
使用VPO数据集时,研究人员可将其应用于各类视频生成模型的提示词优化。具体操作分为两个阶段:首先利用SFT数据训练基础模型,使其具备生成符合原则的提示词能力;随后通过DPO阶段整合多维度反馈,持续优化模型表现。实验表明,该方法在CogVideoX等主流视频生成模型上能显著提升37.5%的胜率,并有效降低14%的不安全内容生成率。
背景与挑战
背景概述
VPO数据集由清华大学CoAI小组与Zhipu AI团队于2025年提出,旨在解决文本到视频生成模型中用户输入与训练数据之间的关键鸿沟。该数据集基于VidProM数据集构建,包含约20,000条经过安全过滤和多样性优化的查询-提示对,重点优化了视频生成提示的三个核心原则:无害性、准确性和实用性。作为首个将多维度反馈机制融入提示优化的框架,VPO通过两阶段优化(基于原则的监督微调和多反馈偏好优化)显著提升了生成视频的安全性与质量,在CogVideoX和Open-Sora等主流视频生成模型上实现了37.5%的原始查询胜率提升,推动了生成式AI对齐研究的发展。
当前挑战
该数据集主要应对三大核心挑战:在领域问题层面,需解决真实用户输入的简洁性、模糊性与训练所需精细文本描述之间的语义鸿沟,传统基于大语言模型的提示优化方法存在意图扭曲、关键细节丢失及安全隐患;在构建过程中,面临双重技术难点:其一需建立跨模态评估体系,同步优化文本级对齐(通过LLM评判)与视频级质量(通过VisionReward模型),其二需设计动态过滤机制处理VidProM原始数据中的敏感内容,通过Detoxify与人工复核相结合确保无害性;此外还需平衡提示的丰富度与生成模型的解码能力,避免过度复杂的描述导致视频质量下降。
常用场景
经典使用场景
在文本到视频生成领域,VPO数据集通过其优化的提示框架,显著提升了生成视频的质量和安全性。该数据集特别适用于处理用户输入简洁、模糊或不安全的情况,通过两阶段优化方法(原则性监督微调和多反馈偏好优化),将低质量提示转化为详细、结构良好且安全的提示,从而生成高质量视频内容。
解决学术问题
VPO数据集解决了文本到视频生成模型在训练和推理阶段之间的关键差距问题。具体而言,它通过优化的提示框架,显著提升了生成视频的安全性、准确性和有用性。该数据集不仅减少了有害内容的生成,还确保了生成的视频与用户意图高度一致,从而在学术研究中为视频生成模型的优化提供了重要支持。
实际应用
在实际应用中,VPO数据集被广泛用于视频内容生成平台,特别是在需要处理用户输入多样性和安全性的场景中。例如,在社交媒体、广告制作和虚拟现实内容生成中,VPO能够将用户简洁或模糊的提示转化为高质量的视频描述,显著提升生成内容的可用性和安全性。
数据集最近研究
最新研究方向
随着文本到视频生成技术的迅猛发展,VPO数据集的研究聚焦于如何优化用户输入提示以提升生成视频的质量与安全性。前沿研究主要探索基于原则的监督微调(SFT)和多反馈偏好优化方法,通过整合文本级和视频级反馈,确保生成的提示不仅无害且准确,还能显著提高视频的视觉质量。这一方向在解决训练与推理阶段描述差异的同时,也为视频生成模型的对齐问题提供了创新解决方案,成为当前生成式人工智能领域的热点之一。
相关研究论文
- 1VPO: Aligning Text-to-Video Generation Models with Prompt Optimization清华大学 · 2025年
以上内容由AI搜集并总结生成



