VideoReward

Name: VideoReward
Creator: 香港中文大学, 清华大学, 快手科技, 上海交通大学, 上海人工智能实验室
Published: 2025-01-24T02:55:41+08:00

arXiv2025-01-24 更新2025-01-25 收录

视频生成

用户偏好分析

数据链接：

https://gongyeliu.github.io/videoalign 数据链接链接失效反馈

官方服务：

资源简介：

VideoReward数据集是一个大规模的视频生成偏好数据集，由香港中文大学、清华大学、快手科技等机构联合创建。该数据集包含182,000条标注数据，涵盖了视觉质量（VQ）、运动质量（MQ）和文本对齐（TA）三个关键维度，旨在捕捉用户对生成视频的偏好。数据集通过12个先进的视频生成模型生成，并经过人工标注，标注过程包括对视频对的偏好选择。数据集的应用领域主要集中在视频生成模型的优化，旨在解决视频生成中的运动不连贯、与提示文本不对齐等问题。通过该数据集，研究人员可以训练多维度视频奖励模型，进一步提升视频生成的质量和用户满意度。

VideoReward Dataset is a large-scale video generation preference dataset jointly created by institutions including The Chinese University of Hong Kong, Tsinghua University, and Kuaishou Technology. It contains 182,000 annotated samples, covering three core dimensions: Visual Quality (VQ), Motion Quality (MQ), and Text Alignment (TA), aiming to capture user preferences for generated videos. The dataset is generated by 12 state-of-the-art video generation models and underwent human annotation, where the annotation process involves preference selection between video pairs. Its primary application focuses on optimizing video generation models, targeting prevalent issues in video generation such as incoherent motion and misalignment with prompt texts. With this dataset, researchers can train multi-dimensional video reward models to further improve the quality of video generation and user satisfaction.

提供机构：

香港中文大学, 清华大学, 快手科技, 上海交通大学, 上海人工智能实验室

创建时间：

2025-01-24

搜集汇总

数据集介绍

构建方式

VideoReward数据集的构建始于从互联网上收集多样化的文本提示，并通过GPT-4o进行扩展和过滤，确保提示的多样性和质量。随后，研究人员选择了12个先进的视频生成模型，生成了约108,000个视频，并构建了182,000个三元组（提示、视频A、视频B）。每个三元组由人类评估者在视觉质量（VQ）、运动质量（MQ）和文本对齐（TA）三个维度上进行成对标注。为确保标注的可靠性，每个样本由三名独立评估者进行标注，并在出现分歧时引入第四名评估者进行裁决。最终，数据集包含高质量的、多维度的偏好标注，用于训练奖励模型。

特点

VideoReward数据集的特点在于其大规模和多维度的标注。数据集涵盖了182,000个标注样本，涉及12个先进的视频生成模型，确保了数据的多样性和广泛性。每个样本在视觉质量、运动质量和文本对齐三个关键维度上进行了详细的成对标注，能够全面反映用户对生成视频的偏好。此外，数据集还包含了点状评分，进一步丰富了标注的层次。这种多维度的标注方式使得数据集能够更准确地捕捉用户对视频生成质量的评估标准，为视频生成模型的优化提供了强有力的支持。

使用方法

VideoReward数据集的使用方法主要包括训练和评估视频生成模型。首先，研究人员可以利用该数据集训练多维度视频奖励模型，通过成对标注和点状评分来优化模型的奖励机制。其次，数据集可以用于评估现有视频生成模型的性能，特别是在视觉质量、运动质量和文本对齐方面的表现。此外，研究人员还可以通过该数据集开发新的对齐算法，如Flow-DPO和Flow-NRG，以进一步提升视频生成模型与人类偏好的对齐效果。数据集的使用不仅限于模型训练，还可以作为基准测试工具，帮助研究人员更准确地评估和比较不同视频生成模型的性能。

背景与挑战

背景概述

VideoReward数据集由快手科技、香港中文大学、清华大学等机构的研究人员于2025年创建，旨在通过人类反馈优化视频生成模型。该数据集包含约18.2万个标注样本，涵盖了视觉质量（VQ）、运动质量（MQ）和文本对齐（TA）三个关键维度，旨在捕捉用户对生成视频的多维度评价。VideoReward的提出标志着视频生成领域从传统的生成模型向基于人类偏好的对齐策略迈出了重要一步。该数据集不仅为视频生成模型的评估提供了新的基准，还推动了基于强化学习的对齐算法在视频生成中的应用。

当前挑战

VideoReward数据集在构建和应用过程中面临多重挑战。首先，视频生成领域的主要问题在于生成视频的运动不连贯、与文本提示的对齐不准确以及视觉质量不佳。VideoReward通过引入多维度的人类偏好数据，试图解决这些问题，但如何有效捕捉和量化这些主观偏好仍是一个难题。其次，构建大规模高质量的人类偏好数据集本身具有挑战性，尤其是在视频生成技术快速发展的背景下，现有数据集往往无法跟上最新模型的生成能力。此外，如何将现有的对齐方法（如DPO和RWR）从扩散模型扩展到基于流的视频生成模型，也是一个亟待解决的技术难题。

常用场景

经典使用场景

VideoReward数据集在视频生成领域中被广泛用于评估和改进生成视频的质量。通过引入人类反馈，该数据集能够捕捉到生成视频在视觉质量、运动质量和文本对齐性等多维度的偏好。研究人员利用这些数据训练多维度视频奖励模型，进而优化生成模型的表现。该数据集特别适用于基于流模型的视频生成系统，帮助解决生成视频中常见的运动不连贯、文本提示与视频内容不一致等问题。

实际应用

在实际应用中，VideoReward数据集被广泛用于视频生成系统的优化和评估。例如，在短视频生成平台中，该数据集可以帮助生成更符合用户期望的视频内容，提升用户体验。此外，该数据集还可用于电影特效制作、广告视频生成等场景，帮助生成高质量的视频内容。通过引入人类反馈，生成系统能够更好地满足个性化需求，生成符合特定场景和用户偏好的视频。

衍生相关工作

VideoReward数据集衍生了许多相关的研究工作。例如，基于该数据集的研究提出了Flow-DPO和Flow-RWR等对齐算法，显著提升了视频生成模型的表现。此外，该数据集还推动了多维度奖励模型的发展，许多研究在此基础上提出了新的奖励建模方法，进一步提升了视频生成系统的性能。这些衍生工作不仅在学术界产生了广泛影响，也在工业界得到了实际应用，推动了视频生成技术的进步。

以上内容由遇见数据集搜集并总结生成

VideoReward

资源简介：

相关数据集