Video-Bench

Name: Video-Bench
Creator: 上海交通大学, 斯坦福大学, 复旦大学, 卡内基梅隆大学, 香港理工大学, 苏州大学, 格拉斯哥大学, 香港城市大学, 西湖大学, LiveX AI, 新加坡国立大学
Published: 2025-04-07 18:32:42
License: 暂无描述

arXiv2025-04-07 更新2025-04-09 收录

下载链接：

https://github.com/Video-Bench/Video-Bench.git

下载链接

链接失效反馈

官方服务：

资源简介：

Video-Bench是由多个研究机构合作创建的一个视频生成评估基准，包含丰富的评估维度和大量提示数据。该数据集通过系统性地利用多模态大型语言模型（MLLM）来评估生成模型在视频生成质量方面的表现，旨在更好地与人类偏好对齐。数据集涵盖了视频条件对齐和视频质量两大类评估维度，包含对象类一致性、动作一致性、颜色一致性、场景一致性、视频文本一致性、成像质量、美学质量、时间一致性、运动质量等具体指标，共计419个提示。

Video-Bench is a video generation evaluation benchmark collaboratively developed by multiple research institutions, featuring diverse evaluation dimensions and a large collection of prompt data. This benchmark systematically employs Multimodal Large Language Models (MLLMs) to evaluate the performance of video generation models in terms of video generation quality, with the goal of achieving better alignment with human preferences. The dataset covers two primary evaluation categories: video condition alignment and video quality, including specific metrics such as object category consistency, motion consistency, color consistency, scene consistency, video-text consistency, imaging quality, aesthetic quality, temporal consistency, and motion quality, with a total of 419 prompts.

提供机构：

上海交通大学, 斯坦福大学, 复旦大学, 卡内基梅隆大学, 香港理工大学, 苏州大学, 格拉斯哥大学, 香港城市大学, 西湖大学, LiveX AI, 新加坡国立大学

创建时间：

2025-04-07

搜集汇总

数据集介绍

构建方式

Video-Bench数据集的构建采用了多模态大语言模型（MLLM）作为核心评估框架，通过系统整合视频生成模型输出的视频内容与对应文本提示的关联性分析。研究团队首先设计了包含419个视频生成提示的多样化提示集，涵盖动作一致性、时间一致性等关键维度，每个提示通过三次采样确保评估稳定性。数据标注环节招募了10名专业标注员对生成的视频进行人工评分，共收集35,196条人工评估数据作为基准。为提升评估的自动化程度，研究创新性地采用了链式查询（Chain-of-Query）和少样本评分（Few-shot Scoring）技术，使MLLM能够通过多轮迭代分析视频内容与文本提示的跨模态对齐，并利用批量视频的上下文参考实现更精准的质量评估。

使用方法

使用Video-Bench进行视频生成评估时，研究者首先需准备待测视频生成模型输出的视频样本及对应文本提示。评估流程分为三个阶段：第一阶段通过MLLM生成初始视频描述；第二阶段采用链式查询技术，由LLM生成针对特定评估维度的细化问题，MLLM通过多轮视频分析回答这些问题；第三阶段整合所有信息进行最终评分。对于视频质量维度，建议采用少样本评分策略，将同提示生成的多个视频作为相互参考基准。数据集支持对Sora、Pika等主流视频生成模型的横向对比，用户可通过分析不同模型在9个维度上的得分剖面图，精准定位模型优势与改进空间。评估结果输出包含标准化分数和详细的质量分析报告，支持JSON和CSV两种数据格式。

背景与挑战

背景概述

Video-Bench是由上海交通大学、斯坦福大学、卡内基梅隆大学等多所知名学府及研究机构联合开发的视频生成评估基准，于2025年4月正式发布。该数据集旨在解决当前视频生成模型评估中人类偏好对齐不足的核心问题，通过引入多模态大语言模型（MLLM）构建自动化评估框架。作为首个系统整合MLLM的视频生成评估基准，Video-Bench通过少样本评分和查询链技术，在Sora等先进模型测试中展现出与人类评估高度一致的优势，推动了生成视频质量评估从传统指标向认知对齐范式的转变。

当前挑战

Video-Bench面临双重挑战：在领域问题层面，需解决视频-文本跨模态对齐评估中MLLM的模态偏差问题，以及视频质量评估中文本评价标准模糊化的难题；在构建过程层面，需克服大规模视频标注中的人类评估主观性差异，并实现评估框架在成像质量、美学评价等多元维度上的稳定泛化。具体表现为：1) MLLM在视频-条件对齐评估中易产生文本幻觉，难以准确检测文本描述与视频内容的不一致性；2) 视频质量评估中人类文本评价标准存在'非常模糊'与'略微模糊'等模糊区间的量化难题。

常用场景

经典使用场景

在视频生成模型的研究与开发中，Video-Bench数据集被广泛用于评估生成视频的质量与条件对齐性。通过其丰富的提示词库和全面的评估维度，研究者能够系统地测试模型在对象类别一致性、动作准确性、色彩保真度及场景还原度等方面的表现。该数据集特别适用于比较不同视频生成算法在人类偏好对齐上的差异，为模型优化提供了标准化测试环境。

解决学术问题

Video-Bench通过引入基于多模态大语言模型（MLLM）的自动化评估框架，解决了传统视频生成评估中人类标注成本高、主观性强的问题。其创新性的链式查询（Chain-of-query）和少样本评分（Few-shot scoring）技术，显著提升了视频-文本对齐评估的细粒度分析能力，填补了现有评估方法在跨模态一致性检测和动态质量量化方面的理论空白。该数据集为建立可解释、可复现的视频生成评估范式提供了方法论基础。

实际应用

在影视特效预演、广告内容生成等工业场景中，Video-Bench的评估体系可快速验证生成视频的商业可用性。其自动化评估模块已集成至多家企业的视频生产管线，用于实时检测生成内容是否符合分镜脚本的色彩规范、动作连贯性等要求。例如在电商视频生成中，系统能自动识别商品展示视频是否准确呈现了描述中的材质纹理与运动轨迹。

数据集最近研究