MTBench

Name: MTBench
Creator: 北京大学, 新加坡国立大学, 南洋理工大学, 浙江大学, 加州大学默塞德分校
Published: 2025-03-22 01:52:05
License: 暂无描述

arXiv2025-03-22 更新2025-03-25 收录

下载链接：

https://shi-qingyu.github.io/DeT.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

MTBench是一个基于DAVIS和YouTube-VOS数据集构建的，包含100个高质量视频和500个评估提示的通用运动迁移基准。该数据集通过最近的Multimodal Large Language Model、Large Language Model和跟踪模型进行了视频标注，并根据轨迹簇的数量将运动分为简单、中等和困难三个级别。

MTBench is a general video motion transfer benchmark constructed based on the DAVIS and YouTube-VOS datasets, which includes 100 high-quality videos and 500 evaluation prompts. This dataset performs video annotation using state-of-the-art multimodal large language models, large language models, and tracking models, and categorizes motion into three levels—simple, medium, and difficult—according to the number of trajectory clusters.

提供机构：

北京大学, 新加坡国立大学, 南洋理工大学, 浙江大学, 加州大学默塞德分校

创建时间：

2025-03-22

搜集汇总

数据集介绍

构建方式

MTBench数据集的构建基于DAVIS和YouTube-VOS两个公开数据集，精心筛选了100个高质量视频样本。通过多模态大语言模型Qwen2.5-VL-7B进行视频标注，并利用Qwen2.5-14B为每个源视频生成5个评估提示文本，实现前景与背景的语义置换。采用SAM模型标注视频主体掩膜，结合CoTracker标注运动轨迹，最终通过基于轮廓系数的K-means聚类算法将运动按轨迹聚类数量划分为易、中、难三个难度等级，形成包含500个评估提示的标准化测试集。

特点

MTBench的核心特征体现在其多维度的评估体系设计。数据集包含48种运动类别，通过轨迹聚类数量量化运动复杂度（1-3类为简单，4-6类为中等，7类以上为困难），构建了当前最全面的运动难度谱系。创新性地引入混合运动保真度指标，结合Fr´echet距离衡量轨迹全局形状相似性和余弦相似度评估局部速度方向，克服了传统评估仅关注局部速度的局限性。每个视频样本均配备精确标注的前景运动轨迹和语义分割掩膜，支持像素级运动分析。

使用方法

使用MTBench需遵循标准化评估协议。首先加载预处理的视频-文本对及对应轨迹标注，通过混合运动保真度公式计算生成视频与源视频的轨迹相似度：M(Ti,Tj)=1/N∑(αe^(-dF)+ (1-α)c¯n)，其中α平衡形状与速度相似性。编辑保真度采用CLIP模型计算帧文本相似度均值，时间一致性通过DINO特征余弦相似度评估。评估时需区分难度等级，重点关注中等难度样本的性能表现，因其最能反映算法在复杂运动场景下的泛化能力。数据集支持CogVideoX、HunyuanVideo等主流视频扩散模型的直接评测。

背景与挑战

背景概述

MTBench数据集由北京大学、新加坡国立大学、浙江大学等机构的研究团队于2025年提出，旨在为视频运动迁移任务建立全面且具有挑战性的评估基准。该数据集基于DAVIS和YouTube-VOS两个公开视频数据集构建，包含100个高质量视频和500个评估提示，覆盖人类、动物和车辆等多种领域。研究团队创新性地采用多模态大语言模型进行视频标注，并通过自动聚类算法将运动难度划分为三个等级，为视频生成领域提供了首个融合全局形状对齐和局部速度相似性的混合运动保真度评估指标。

当前挑战

MTBench面临的挑战主要体现在两个方面：在领域问题层面，视频运动迁移需要解决运动与外观解耦的核心难题，而现有基于3D全注意力机制的扩散变换器模型难以显式分离时空信息；在构建过程层面，数据集需要平衡运动复杂性与标注可靠性，研究团队通过距离加权采样确保肢体等关键区域的轨迹标注质量，并开发聚类算法实现客观的难度分级。此外，评估指标需要同时捕捉轨迹的全局形状相似性和局部速度一致性，这对运动保真度的量化提出了更高要求。

常用场景

经典使用场景

MTBench数据集作为视频运动迁移任务的基准测试平台，其经典使用场景集中在评估扩散变换器（DiT）模型在复杂运动模式下的迁移能力。通过提供包含100个高质量视频样本及500个评估提示的多样化测试集，研究者能够系统验证模型在跨类别运动迁移（如从人类动作到动物行为）时的时空一致性保持与文本控制灵活性。数据集特别设计了基于轨迹聚类的三级难度划分（简单/中等/困难），使得模型在肢体细微运动、多物体交互等挑战性场景中的性能得以精确量化。

衍生相关工作

MTBench的发布催生了多项创新研究：MotionDirector通过引入时空分离注意力改进了U-Net架构的运动迁移性能；Spectral Motion Alignment利用该基准验证了频域解耦方法的有效性；DreamBooth的DiT适配版本将文本嵌入注入3D注意力机制，在保持编辑保真度方面取得突破。数据集还启发了VideoFusion等工作的混合度量体系设计，推动建立了更全面的生成视频评估标准。

数据集最近研究