VBench-2.0
收藏arXiv2025-03-28 更新2025-03-29 收录
下载链接:
https://vchitect.github.io/VBench-2.0-project/
下载链接
链接失效反馈官方服务:
资源简介:
VBench-2.0是由上海人工智能实验室等机构创建的视频生成模型评估基准,旨在自动评估视频生成模型在内在真实性的五个关键维度:人类保真度、可控性、创造性、物理性和常识性。该数据集通过结合通用模型(如最先进的视频语言模型和大型语言模型)和针对特定领域的专家模型,对视频生成模型的内在真实性进行细致评估。
VBench-2.0 is a video generation model evaluation benchmark developed by institutions including the Shanghai AI Laboratory and others. It aims to automatically assess video generation models across five key dimensions of intrinsic authenticity: human fidelity, controllability, creativity, physical plausibility, and common sense. This benchmark conducts detailed evaluations of the intrinsic authenticity of video generation models by combining general-purpose models such as state-of-the-art video-language models and large language models (LLMs), as well as domain-specific expert models.
提供机构:
上海人工智能实验室
创建时间:
2025-03-28
搜集汇总
数据集介绍

构建方式
VBench-2.0的构建基于对视频生成模型内在真实性的全面评估需求,通过整合多维度评估框架实现。该数据集采用结构化方法,结合通用推理模型(如VLMs/LLMs)和专用检测器,设计了两套互补的评估方案:文本描述对齐和基于视频的多问题回答。文本描述对齐适用于复杂场景,通过视觉语言模型生成描述性字幕,再由大型语言模型判断生成内容与参考文本的匹配度。基于视频的多问题回答则针对单一显著概念,通过构建互补性问题集,利用视觉语言模型进行直接视频问答,确保评估的准确性和鲁棒性。
特点
VBench-2.0在评估维度上进行了精细划分,涵盖人类保真度、可控性、创造力、物理学和常识五大类别,进一步细分为18个子能力。其独特之处在于对内在真实性的全面评估,包括物理法则的遵循、常识推理、解剖学正确性和组合完整性。数据集通过精心设计的提示词套件,确保每个评估维度的覆盖范围和多样性,同时采用预过滤和冗余提问等策略增强评估的鲁棒性。此外,VBench-2.0还通过大规模人类偏好标注验证自动化评估结果与人类判断的一致性。
使用方法
使用VBench-2.0进行模型评估时,首先根据评估维度生成相应的视频样本。对于每个子能力维度,基于对应的提示词套件生成视频,并应用预定义的评估方法获取数值评分。评估过程结合了通用模型和专用检测器的优势,确保对不同能力的全面评估。用户可通过标准化框架将新发布的视频生成模型整合到VBench-2.0中,利用其提供的结构化评估流程进行性能测试。评估结果不仅反映了模型在各维度上的表现,还通过人类标注数据的对比验证了自动化评估的可靠性,为视频生成模型的研发提供了重要参考。
背景与挑战
背景概述
VBench-2.0是由上海人工智能实验室、南洋理工大学S-Lab、中山大学等机构的研究团队于2025年提出的新一代视频生成基准测试套件。该数据集旨在推动视频生成模型从表面真实性(superficial faithfulness)向内在真实性(intrinsic faithfulness)的跨越式发展。随着Sora、Kling等先进视频生成模型的出现,传统评估指标如帧间一致性、简单提示遵循等已接近饱和。VBench-2.0创新性地提出了人类保真度、可控性、创造性、物理合理性和常识推理五大评估维度,细分为18项精细能力指标,为构建真正符合现实世界原理的'世界模拟器'提供了系统性评估框架。
当前挑战
VBench-2.0面临的核心挑战体现在两个层面:在领域问题层面,需要解决视频生成中复杂情节连贯性、多物体动态属性控制、物理定律符合性等本质性难题,例如现有模型在生成涉及多阶段事件转换的复杂剧情时成功率不足20%。在构建过程中,研究团队需要克服三大技术挑战:1)设计能准确评估抽象概念(如常识推理)的自动化评测管道,2)建立覆盖18个维度的平衡提示词库以避免评估偏差,3)开发结合通用视觉语言模型与专业异常检测的混合评估体系,如采用YOLO-World进行实例保持检测,并利用CoTracker-v2分析摄像机运动轨迹。
常用场景
经典使用场景
VBench-2.0作为下一代视频生成模型评估基准,其经典使用场景聚焦于系统化评测模型在物理规律、常识推理、人体解剖学正确性等内在真实性维度的表现。该数据集通过设计18项细粒度能力指标(如多视角几何一致性、动态属性控制、复杂情节理解等),为研究者提供了标准化框架以量化模型在超越表面视觉逼真度后的深层次生成能力,尤其适用于对比Sora、Kling等前沿视频生成模型的性能差异。
衍生相关工作
VBench-2.0催生了多项视频生成领域的创新研究:其物理评估维度启发了PhyGenBench对微观物理现象的专项评测;基于动态属性控制的发现推动了CogVideoX-1.5在时空解耦架构上的改进;多视角一致性指标直接促进了3D视频生成模型RepVideo的研发。该数据集还与StoryEval等叙事评估基准形成互补,共同构建起从技术指标到语义深度的完整评估体系。
数据集最近研究
最新研究方向
近年来,视频生成技术已从追求视觉逼真度(superficial faithfulness)逐步转向追求内在真实性(intrinsic faithfulness),即生成的视频不仅需要视觉上连贯,还需符合物理规律、常识推理及人体解剖学等深层次原则。VBench-2.0作为新一代评测基准,通过引入五大核心维度(Human Fidelity、Controllability、Creativity、Physics、Commonsense)及其细分的18项能力指标,系统评估模型在复杂场景下的表现。例如,在Physics维度中,通过热力学、力学和材料状态变化的专项测试,揭示模型对物理定律的模拟能力;而Commonsense维度则通过运动合理性(Motion Rationality)和实例保持(Instance Preservation)等指标,检验生成内容是否符合现实逻辑。当前SOTA模型如Sora、Kling 1.6等在Human Fidelity和Creativity上表现突出,但在动态属性控制(Dynamic Attribute)和复杂叙事(Complex Plot)等场景仍存在显著不足。该数据集的推出为AI辅助影视制作、虚拟环境构建等应用提供了标准化评估工具,推动了视频生成技术向“世界模拟器”目标的演进。
相关研究论文
- 1VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness上海人工智能实验室 · 2025年
以上内容由遇见数据集搜集并总结生成



