KwaiVGI/VideoGen-RewardBench

Name: KwaiVGI/VideoGen-RewardBench
Creator: KwaiVGI
Published: 2025-02-10 16:24:20
License: 暂无描述

Hugging Face2025-02-10 更新2025-02-15 收录

下载链接：

https://hf-mirror.com/datasets/KwaiVGI/VideoGen-RewardBench

下载链接

链接失效反馈

官方服务：

资源简介：

VideoGen-RewardBench是一个全面的基准，旨在评估现代文本到视频系统的视频奖励模型性能。它包含26.5k个（提示，视频A，视频B）的三元组，由专家注释者根据视觉质量、运动质量、时间对齐和整体质量等评估维度提供成对偏好标签。该数据集覆盖了由12种最先进的T2V模型生成的具有高分辨率和较长持续时间的视频。

VideoGen-RewardBench is a comprehensive benchmark designed to evaluate the performance of video reward models on modern text-to-video (T2V) systems. It consists of 26.5k (prompt, Video A, Video B) triplets annotated by expert annotators based on evaluation dimensions such as Visual Quality (VQ), Motion Quality (MQ), Temporal Alignment (TA), and an overall quality score. The dataset covers videos generated by 12 state-of-the-art T2V models with high resolutions and longer durations.

提供机构：

KwaiVGI

搜集汇总

数据集介绍

构建方式

在视频生成领域，随着文本到视频（T2V）技术的飞速发展，对生成视频质量的精准评估成为推动技术迭代的关键。VideoGen-RewardBench数据集正是为此而生，它基于第三方基准VideoGen-Eval构建，通过系统性地整合12种前沿T2V模型生成的多样化视频，并精心设计26.5k个（提示词，视频A，视频B）三元组，由专业标注人员依据视觉质量、运动质量、时间对齐及整体质量四个核心维度进行成对偏好标注，从而构建出一个全面且细粒度的评估框架。

特点

该数据集的核心亮点在于其高度的代表性与专业性。它不仅覆盖了从480×720到576×1024的高分辨率视频，时长跨度4至6秒，确保了评估场景的丰富性；更通过多维度、多模型的对比设计，精准捕捉了人类对视频质量的细微偏好。每个数据实例均包含生成模型信息、视频属性及四维度的偏好标签，为视频奖励模型提供了严苛且公正的测试环境，能够真实反映当前T2V技术的先进水平与用户主观评价的一致性。

使用方法

使用VideoGen-RewardBench进行模型评估时，研究人员可直接加载CSV格式的标注数据，其中包含视频路径、提示词及偏好标签等关键字段。通过比较视频A与视频B在视觉、运动、时间对齐及整体质量上的标注偏好，可计算奖励模型的预测准确率。数据集设计简洁，支持灵活拆分，便于集成到现有评估流程中，为视频生成模型的优化与奖励函数的学习提供标准化参考基准。

背景与挑战

背景概述

视频生成领域正经历着从图像生成向动态内容创作的深刻转型，其中文本到视频（T2V）技术作为连接自然语言描述与视觉叙事的关键桥梁，近年来取得了突破性进展。然而，如何系统性地评估生成视频的质量，尤其是使其与人类主观偏好高度一致，始终是该领域面临的核心挑战。在此背景下，由快手科技KwaiVGI团队主导，联合多所研究机构于2025年发布的VideoGen-RewardBench基准数据集应运而生。该数据集基于第三方工作VideoGen-Eval构建，汇聚了26.5万个精心设计的（提示词、视频A、视频B）三元组，并引入专家标注员对视频的视觉质量、运动质量、时间对齐及整体质量四个维度进行成对偏好标注。其覆盖了12种前沿T2V模型生成的多样化视频，分辨率高达480×720至576×1024，时长延伸至4至6秒，为视频奖励模型的公平评估提供了坚实且反映人类偏好的测试框架，有力推动了视频生成评价体系的标准化进程。

当前挑战

VideoGen-RewardBench直面视频生成评估领域的两大核心挑战。其一，现有自动评估指标（如FVD、CLIP相似度）难以捕捉人类对视频动态美感、运动流畅性及文本-视频语义对齐的细腻感知，导致模型优化方向与真实用户偏好脱节；该基准通过构建多维度成对偏好标注，为奖励模型提供了更贴近主观体验的训练与评测依据。其二，在基准构建过程中，如何确保不同T2V模型生成视频的可比性、标注维度间的一致性以及大规模三元组标注的可靠性，构成了严峻挑战。研究团队需从12种差异化模型中筛选出具有代表性的视频对，并设计严谨的标注协议来区分视觉质量、运动质量与时序对齐等易混淆维度，同时通过专家标注控制主观偏差，最终在26.5万样本上实现高质量偏好数据的规模化生产，为视频奖励模型的鲁棒训练奠定数据基础。

常用场景

经典使用场景

在视频生成模型迅猛发展的浪潮中，如何公正且全面地衡量生成视频的感知质量成为亟待解决的核心议题。VideoGen-RewardBench正是为此而生，它基于12种前沿文本到视频（T2V）模型产出的多样化视频内容，构建了包含26,500个三元组（提示词、视频A、视频B）的大规模偏好标注数据集。该数据集通过专家标注员在视觉质量、运动质量、时间对齐和整体质量四个关键维度上提供成对偏好标签，为视频奖励模型的性能评估提供了兼具广度与深度的标准化测试平台。研究者可借助该数据集训练或评测奖励模型，使其精准捕捉人类对视频生成质量的真实偏好，从而推动T2V系统朝着更符合用户期待的方向演进。

解决学术问题

长久以来，学术界在视频生成模型的评估上面临主观性强、维度单一且缺乏统一基准的困境。VideoGen-RewardBench通过引入多维度细粒度标注体系，系统性地解决了奖励模型与人类偏好对齐的难题。其贡献在于首次将视觉质量、运动质量、时间对齐与整体质量纳入统一的偏好学习框架，使得研究者能够量化不同生成模型在具体维度上的优势与短板。该数据集不仅为训练更鲁棒的视频奖励模型提供了大规模、高可靠性的监督信号，还通过覆盖高分辨率与长时长视频的多样性样本，提升了评估结果在真实场景中的泛化能力。这一工作填补了视频生成领域缺乏标准化奖励基准的空白，为后续研究奠定了坚实的实验基础。

衍生相关工作

VideoGen-RewardBench的发布催生了一系列富有启发性的后续工作。其中，Liu等人（2025）在论文《Improving Video Generation with Human Feedback》中直接基于该数据集构建了视频奖励模型，并将其成功整合到文本到视频的生成流程中，通过人类反馈的强化学习显著提升了生成视频的感知质量。此外，该数据集所倡导的多维度偏好标注范式，已被后续研究借鉴用于开发更细粒度的视频质量评估模型，例如衍生出针对特定场景（如运动模糊、时序一致性）的专用奖励函数。同时，该基准的公开排行榜机制激励了多家研究机构在奖励模型架构上进行创新，催生了融合时序注意力与视觉感知的混合模型，推动了视频生成评估体系向更科学、更全面的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集