VMBench

Name: VMBench
Creator: 阿里巴巴集团
Published: 2025-03-13 13:54:42
License: 暂无描述

arXiv2025-03-13 更新2025-03-15 收录

下载链接：

https://github.com/GD-AIGC/VMBench

下载链接

链接失效反馈

官方服务：

资源简介：

VMBench是一个全面的视频运动基准，包含与人类感知对齐的运动评价指标，并具有最多样化的运动类型。该数据集由阿里巴巴集团创建，包含969个类别，涵盖流体动力学、生物运动、机械运动、天气现象、集体行为和能量传递六种运动模式。VMBench通过感知驱动的运动评价指标、元指导的运动提示生成和与人类对齐的验证机制，旨在系统地评估视频生成模型中运动生成的质量。

VMBench is a comprehensive video motion benchmark that features human perception-aligned motion evaluation metrics and the most diverse range of motion types. Developed by Alibaba Group, this dataset includes 969 categories covering six motion modalities: fluid dynamics, biological motion, mechanical motion, weather phenomena, collective behavior, and energy transfer. VMBench aims to systematically evaluate the quality of motion generation in video generation models via perception-driven motion evaluation metrics, meta-guided motion prompt generation, and human-aligned validation mechanisms.

提供机构：

阿里巴巴集团

创建时间：

2025-03-13

搜集汇总

数据集介绍

构建方式

VMBench数据集通过一种感知驱动的运动评估指标（PMM）和元引导的运动提示生成（MMPG）来构建。PMM包括五个关键组成部分：对象完整性得分（OIS）、可感知幅度得分（PAS）、时间连贯性得分（TCS）、运动平滑度得分（MSS）和常识遵从得分（CAS），以更全面地评估运动质量。MMPG则是一种可扩展的框架，包括最全面的运动类型，基于物理和认知科学，并包含六个运动模式：流体动力学、生物运动、机械运动、天气现象、集体行为和能量转移。这些提示通过人类-AI验证来确保其合理性和一致性。

特点

VMBench数据集的特点包括：1）感知驱动的运动评估指标，可以更全面地评估运动质量，包括时空不一致性和违反物理定律的问题；2）元引导的运动提示生成，提供了一个包含六个主要动态场景维度的多层次提示库，用于评估视频模型中的各种运动方面；3）人类对齐的验证机制，通过人类偏好注释来验证基准，与基线方法相比，我们的指标在Spearman相关系数方面平均提高了35.3%。这是第一次从人类感知对齐的角度评估视频中的运动质量。

使用方法

VMBench数据集的使用方法包括：1）使用PMM指标对视频生成模型进行评估，以了解模型在运动质量方面的优势和劣势；2）使用MMPG生成的提示来评估视频模型在不同运动模式下的性能；3）通过人类对齐的验证机制，验证评估指标的有效性。VMBench数据集的开放源代码将包括所有提示、评估方法、生成的视频和人类偏好注释，以及更多的视频生成模型，以推动视频运动生成领域的发展。

背景与挑战

背景概述

VMBench是一个全面的视频运动基准，由阿里巴巴集团APMP和自动化研究所CRISE的研究人员共同创建。该数据集的核心研究问题是视频运动生成中评估方法的改进，特别是与人类感知相一致的运动评估。VMBench的特点是具有感知驱动的运动评估指标，这些指标基于人类对运动视频评估的五个维度，提供了对模型在运动质量方面的优势和劣势的深入见解。此外，VMBench还引入了元引导运动提示生成，通过提取元信息、使用大型语言模型（LLM）生成多样化的运动提示，并通过人机协作验证进行细化，从而创建了一个涵盖六个关键动态场景维度的多层次提示库。该数据集的影响力在于，它是第一个从人类感知对齐的角度评估视频运动质量的数据集，并为评估和推动运动生成模型的发展设定了新的标准。

当前挑战

VMBench面临的挑战包括：1)所解决的领域问题的挑战，即视频运动生成中评估方法与人类感知的一致性；2)构建过程中所遇到的挑战，包括感知驱动的运动评估指标的开发、元引导运动提示生成的方法设计以及人机协作验证机制的建立。这些挑战要求研究人员在视频运动生成领域进行深入的研究和探索，以提高评估方法的准确性和可靠性。

常用场景

经典使用场景

VMBench数据集被广泛用于评估和改进视频生成模型的运动质量。其最经典的使用场景包括：1) 作为视频生成模型的训练数据集，帮助模型学习生成更符合人类感知的运动模式；2) 作为视频生成模型的评估工具，通过感知驱动的运动评估指标对模型生成的视频进行系统性的评估，以识别模型在运动质量方面的优势和不足；3) 作为视频生成模型的诊断工具，指导模型的优化方向，提高模型的动态运动生成能力。

衍生相关工作

VMBench数据集的提出和发展，推动了视频生成领域的一系列相关工作，包括：1) 基于VMBench数据集的感知驱动的运动评估指标的研究，进一步提高了运动质量评估的准确性和可靠性；2) 基于VMBench数据集的元引导的运动提示生成方法的研究，拓展了运动提示的种类和范围，提高了视频生成模型的动态运动生成能力；3) 基于VMBench数据集的视频生成模型优化方法的研究，提高了模型的运动质量和生成效率。VMBench数据集为视频生成领域的研究和发展提供了重要的参考和借鉴。

数据集最近研究