MotionBench
收藏arXiv2025-01-06 更新2025-01-08 收录
下载链接:
https://motion-bench.github.io
下载链接
链接失效反馈官方服务:
资源简介:
MotionBench是由清华大学和Zhipu AI联合创建的一个视频理解基准测试数据集,旨在评估视频语言模型在细粒度运动理解上的能力。该数据集包含8052个问题,数据来源于网络视频(如Panda70M、Pexels)、公共数据集(如MedVid、SportsSloMo、Ha-ViD)以及通过Unity生成的自合成视频,涵盖了广泛的现实世界应用场景。数据集通过精心设计的注释流程确保了多样性和准确性,主要用于视频理解模型的开发和评估,特别是在细粒度运动分析领域。
MotionBench is a video understanding benchmark dataset jointly created by Tsinghua University and Zhipu AI, which aims to evaluate the fine-grained motion understanding capabilities of video-language models. This dataset contains 8052 questions, with data sourced from online videos (e.g., Panda70M, Pexels), public datasets (e.g., MedVid, SportsSloMo, Ha-ViD), and self-synthesized videos generated via Unity, covering a wide range of real-world application scenarios. The dataset ensures diversity and accuracy through a meticulously designed annotation pipeline, and is primarily used for the development and evaluation of video understanding models, particularly in the field of fine-grained motion analysis.
提供机构:
清华大学, Zhipu AI
创建时间:
2025-01-06
搜集汇总
数据集介绍

构建方式
MotionBench数据集的构建过程涵盖了从视频收集到问题标注的多个步骤。首先,研究团队从多个公开数据集(如Panda70M、Pexels、MedVid、SportsSloMo等)以及自采集的视频中获取原始视频素材。这些视频涵盖了日常互动、医疗指导、体育回放等多种场景。随后,视频被分为三类:复杂互动视频、特定领域视频和虚拟视频,并分别采用不同的处理流程。复杂互动视频通过场景检测工具进行分段,特定领域视频则根据分辨率和时长进行筛选,虚拟视频则通过Unity引擎生成。最后,研究团队设计了六类与运动相关的问题类型,并通过人工标注和GPT-4o自动生成相结合的方式,构建了包含8052个问题的数据集。
特点
MotionBench数据集的特点在于其专注于细粒度运动理解,涵盖了六类与运动相关的问题类型,包括运动识别、动作顺序、重复计数等。数据集中的视频来源广泛,涵盖了现实世界中的多种场景,确保了内容的多样性和代表性。此外,MotionBench的标注密度显著高于现有基准,达到了每秒12.63个单词的标注密度,能够有效评估模型对快速和瞬时运动的感知能力。实验结果表明,现有的视觉语言模型在细粒度运动理解任务上表现较差,准确率普遍低于60%,凸显了该数据集在推动视频理解模型发展中的重要性。
使用方法
MotionBench数据集的使用方法主要包括对视频理解模型的评估和优化。研究人员可以通过该数据集评估模型在细粒度运动理解任务上的表现,尤其是对快速和瞬时运动的感知能力。数据集提供了六类运动相关的问题类型,涵盖了从运动识别到动作顺序的多个方面。此外,研究团队还提出了一种名为Through-Encoder (TE) Fusion的新型视频特征压缩方法,该方法通过在整个视觉编码器中应用深度融合,显著提升了模型在高压缩率下的运动理解能力。实验表明,TE Fusion在MotionBench及其他基准数据集上均取得了最先进的性能,尤其是在高压缩率场景下表现出色。
背景与挑战
背景概述
MotionBench是由清华大学和智谱AI的研究团队于2025年提出的一个专门用于评估视频理解模型在细粒度运动理解能力上的基准数据集。该数据集的创建旨在填补当前视频理解基准在运动层面感知能力评估上的空白。MotionBench通过六种主要运动相关的问题类型,结合来自多个来源的视频数据,确保了数据集的多样性和广泛性。实验结果表明,现有的视觉语言模型(VLMs)在理解细粒度运动方面表现不佳,这促使研究团队提出了新的视频特征压缩方法——Through-Encoder Fusion(TE Fusion),以提升模型在有限序列长度下的运动理解能力。MotionBench的发布为视频理解模型的进一步发展提供了重要的评估工具,强调了细粒度运动理解在视频分析中的重要性。
当前挑战
MotionBench面临的挑战主要体现在两个方面。首先,细粒度运动理解要求高帧率输入,而现有的视频理解模型由于计算和内存的限制,通常只能处理有限的帧数,导致无法满足细粒度运动分析的需求。其次,现有的视频理解模型在细粒度运动理解上的基础能力有限,尽管高帧率输入带来了一定的性能提升,但模型在MotionBench上的准确率仍然低于60%。此外,数据集的构建过程中也面临了视频来源多样性和标注复杂性的挑战,尤其是在处理复杂交互视频时,如何确保标注的准确性和多样性成为了一个关键问题。这些挑战不仅影响了模型的性能评估,也为未来的研究提供了改进的方向。
常用场景
经典使用场景
MotionBench数据集主要用于评估视觉语言模型(VLMs)在细粒度视频运动理解方面的能力。通过涵盖六种主要运动类别的视频内容,MotionBench为研究人员提供了一个全面的基准测试平台,用于衡量模型在复杂运动场景中的表现。该数据集广泛应用于视频理解模型的开发与优化,尤其是在需要高帧率输入和精细运动分析的场景中。
解决学术问题
MotionBench解决了当前视频理解模型在细粒度运动理解方面的不足。现有的基准测试大多关注事件级或故事级理解,而忽视了运动级理解的重要性。MotionBench通过引入多样化的视频内容和精细的运动类别问题,填补了这一空白,推动了视频理解模型在运动感知能力上的提升。该数据集还揭示了现有模型在高帧率输入和计算成本之间的权衡问题,为未来的研究提供了方向。
衍生相关工作
MotionBench的推出催生了一系列相关研究工作,尤其是在视频特征压缩和运动理解模型优化方面。基于该数据集,研究人员提出了多种视频特征压缩方法,如Through-Encoder Fusion(TE Fusion),该方法通过深度帧融合显著提升了模型在高压缩率下的表现。此外,MotionBench还激发了更多关于视频理解模型架构优化的研究,推动了该领域的进一步发展。
以上内容由遇见数据集搜集并总结生成



