VMBench

github2025-03-25 更新2025-03-26 收录

下载链接：

https://github.com/GD-AIGC/VMBench

下载链接

链接失效反馈

官方服务：

资源简介：

VMBench是一个全面的视频运动基准，具有感知对齐的运动指标，并涵盖了最多样化的运动类型。它具有感知驱动的运动评估指标、元引导的运动提示生成和人类对齐的验证机制。

VMBench is a comprehensive video motion benchmark equipped with perception-aligned motion metrics and covering the most diverse motion types. It features perception-driven motion evaluation metrics, meta-guided motion prompt generation, and human-aligned validation mechanisms.

创建时间：

2025-03-12

原始信息汇总

VMBench 数据集概述

数据集简介

名称: VMBench: A Benchmark for Perception-Aligned Video Motion Generation
类型: 视频生成评估基准
主要目标: 评估视频生成模型在运动质量方面的表现，并与人类感知对齐

核心特性

感知驱动的运动评估指标
- 基于人类感知识别五个评估维度
- 提供细粒度评估指标，深入分析模型在运动质量上的优缺点
元引导的运动提示生成
- 结构化方法提取元信息
- 使用LLMs生成多样化运动提示
- 通过人机验证进行提示优化
- 包含覆盖六个动态场景维度的多级提示库
人类对齐验证机制
- 提供人类偏好标注验证基准
- 指标在Spearman相关性上平均提升35.3%

评估维度

CAS (Commonsense Adherence Score): 常识一致性评分
MSS (Motion Smoothness Score): 运动平滑度评分
OIS (Object Integrity Score): 物体完整性评分
PAS (Perceptible Amplitude Score): 可感知幅度评分
TCS (Temporal Coherence Score): 时间一致性评分

评估结果

排行榜 (部分模型表现):

模型平均分 CAS MSS OIS PAS TCS

OpenSora-v1.2 51.6 31.2 61.9 73.0 3.4 88.5

HunyuanVideo 63.4 51.9 81.6 65.8 26.1 96.3

Wan2.1 78.4 62.8 84.2 66.0 17.9 97.8

数据集使用

提示集: 包含1050个多样化运动提示
视频准备: 需按序号对应生成视频
评估流程: 提供完整评估脚本和指标计算

技术依赖

主要工具库:
- Grounded-Segment-Anything
- MMPose
- Q-Align
- VideoMAEv2

许可信息

许可证: Apache-2.0 license
使用限制: 研究用途

引用格式

bibtex @misc{ling2025vmbenchbenchmarkperceptionalignedvideo, title={VMBench: A Benchmark for Perception-Aligned Video Motion Generation}, author={Xinran Ling et al.}, year={2025}, eprint={2503.10076}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

在视频生成技术快速发展的背景下，VMBench数据集通过系统化的方法构建而成。研究团队基于人类感知的五个维度开发了精细化的评估指标，采用元信息引导的提示生成技术，结合大型语言模型（LLMs）生成多样化运动提示，并通过人机协同验证机制进行优化，最终形成覆盖六个关键动态场景维度的多层次提示库。数据集构建过程中还引入了人类偏好标注机制，确保评估指标与人类感知高度一致。

特点

VMBench数据集作为首个基于人类感知对齐的视频运动质量评估基准，具有三大显著特征：其感知驱动的运动评估指标体系包含五个维度，能深入揭示模型在运动质量方面的优劣势；通过结构化方法生成的多样化运动提示库，覆盖了最全面的运动类型；特别设计的人类对齐验证机制使评估指标与人类判断的Spearman相关系数平均提升35.3%，大幅提高了评估的可靠性。

使用方法

使用VMBench数据集时，需首先生成与1050个标准化提示相对应的视频序列，保持严格的序号对应关系。通过执行评估脚本启动自动化评测流程，系统将依次计算感知幅度分数（PAS）、物体完整性分数（OIS）、时间连贯性分数（TCS）等五个维度的指标。典型配置下完成全量评估约需6小时45分钟，结果将自动生成包含详细评分的CSV文件。数据集提供的标准化评估框架支持研究者客观比较不同视频生成模型的运动质量表现。

背景与挑战

背景概述

VMBench是由GD-ML团队于2024年推出的视频运动生成基准测试数据集，旨在解决视频生成领域中运动评估的关键难题。随着视频生成技术的快速发展，现有评估方法在运动质量分析上存在明显局限：传统指标与人类感知存在偏差，且缺乏多样化的运动提示语料。该数据集创新性地构建了基于五维人类感知指标的评价体系，通过元信息引导的大语言模型提示生成技术，覆盖六类动态场景维度，其指标与人类评估的Spearman相关系数较基线方法提升35.3%。作为首个从人类感知对齐角度量化视频运动质量的数据集，VMBench为视频生成模型的细粒度性能诊断提供了标准化评估框架。

当前挑战

VMBench面临的挑战主要体现在评估体系构建和技术实现两个层面。在领域问题方面，视频运动质量评估存在多维感知特性难以量化的问题，需要平衡物理准确性与主观感知的一致性；动态场景的复杂时空关系建模对评价指标的鲁棒性提出更高要求。在构建过程中，团队需解决多模态数据协同处理的工程难题：包括大规模视频样本的感知标注成本控制、跨框架的算法集成（如Grounded-SAM与MMPose的协同），以及评估流程的算力优化——单次全量评估耗时近7小时，涉及49帧/视频的密集计算。这些挑战使得构建既符合人类感知又具备计算可行性的评估系统成为复杂系统工程。

常用场景

经典使用场景

在视频生成领域，VMBench作为一个专注于运动感知对齐的基准测试工具，其经典使用场景主要体现在对生成视频中运动质量的评估。通过多维度的运动指标，如运动平滑度、时间一致性等，研究者能够系统性地评估不同视频生成模型在运动表现上的优劣。这一场景特别适用于需要精细控制运动特性的视频生成任务，如动画制作、虚拟现实内容生成等。

解决学术问题

VMBench解决了视频生成研究中两个关键学术问题：一是现有运动评估指标与人类感知不一致的问题，二是运动提示多样性不足的局限性。通过引入五个基于人类感知维度的评估指标，并结合大规模语言模型生成多样化运动提示，该数据集为视频运动质量的量化评估提供了科学依据，显著提升了评估结果与人类感知的一致性，其指标在Spearman相关系数上平均提升了35.3%。

衍生相关工作

围绕VMBench数据集，已衍生出多项重要研究工作。其中包括基于其评估指标的模型优化方法、结合大语言模型的运动提示生成技术，以及面向特定场景的运动质量提升方案。这些工作不仅扩展了数据集的应用范围，也推动了视频生成技术在运动控制方面的理论创新，如近期发表的OpenSora和HunyuanVideo等模型都采用了该基准进行性能验证。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

模型	平均分	CAS	MSS	OIS	PAS	TCS
OpenSora-v1.2	51.6	31.2	61.9	73.0	3.4	88.5
HunyuanVideo	63.4	51.9	81.6	65.8	26.1	96.3
Wan2.1	78.4	62.8	84.2	66.0	17.9	97.8