MotionHalluc

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/motionhalluc/MotionHalluc

下载链接

链接失效反馈

官方服务：

资源简介：

MotionHalluc基准数据集是一个专门设计用于评估视频多模态模型中运动幻觉和运动推理能力的资源。该数据集包含三个评估任务，要求模型比较、推理和验证视频中的人类运动模式。数据集结构包括两个主要部分：一是包含所有标注文件的`MotionHalluc/`目录，这些文件以JSON格式存储，涵盖三个基于QA的评估任务；二是`motion_4dHumans/`目录，存储与每个视频样本对应的运动表示，格式为.npy，这些表示是通过预训练的4D人类运动重建流程提取的。数据集仅提供标注和运动表示，原始视频需用户自行从Fit3D数据集下载。运动表示通过4D人类运动重建方法获得，该方法基于Transformer技术重建和跟踪人类运动。数据集适用于非商业科学研究用途，标注数据和基准设计采用CC BY 4.0许可。使用示例展示了数据集中的样本格式，包括关于运动比较或推理的问题、多项选择或二元答案，以及每个视频对应的运动表示。

The MotionHalluc benchmark dataset is a resource specifically designed to evaluate motion hallucination and motion reasoning capabilities in video multimodal models. The dataset includes three evaluation tasks that require models to compare, reason, and verify human motion patterns in videos. The dataset structure consists of two main parts: first, the `MotionHalluc/` directory containing all annotation files stored in JSON format, covering three QA-based evaluation tasks; second, the `motion_4dHumans/` directory storing motion representations corresponding to each video sample in .npy format, which are extracted through a pre-trained 4D human motion reconstruction pipeline. The dataset provides only annotations and motion representations, and users need to download the original videos from the Fit3D dataset. The motion representations are obtained through a 4D human motion reconstruction method based on Transformer technology for reconstructing and tracking human motion. The dataset is intended for non-commercial scientific research purposes, with annotation data and benchmark design licensed under CC BY 4.0. Usage examples demonstrate the sample format in the dataset, including questions about motion comparison or reasoning, multiple-choice or binary answers, and the corresponding motion representation for each video.

创建时间：

2026-05-04

原始信息汇总

MotionHalluc Benchmark 数据集概述

基本信息

数据集名称：MotionHalluc Benchmark
许可证：CC BY 4.0（仅限非商业科研用途）
任务类型：视觉问答（Visual Question Answering）、其他（运动推理）
语言：英语
标签：运动推理、视频理解、人体运动、基准测试
数据集规模：1,000 < N < 10,000 个样本

数据集简介

MotionHalluc 是一个专为评估视频多模态模型在运动幻觉和运动推理能力而设计的基准数据集。它包含三个评估任务，要求模型在不同视频之间对人体运动模式进行比较、推理和验证。

数据集结构

1. `MotionHalluc/` 目录

包含所有注释文件
提供三种 MotionHalluc 任务（基于问答的评估）
包含用于构建基准的原始精选注释
文件格式：JSON

2. `motion_4dHumans/` 目录

包含每个视频样本对应的运动表征数据
文件格式：.npy
运动表征使用预训练的4D人体运动重建管线提取
每个文件对应问答注释中使用的视频ID

视频数据说明

数据集仅分发注释和运动表征，不包含原始视频
用户需自行从 Fit3D 数据集下载原始视频：https://fit3d.imar.ro/
视频仅用作运动提取和评估对齐的输入参考

运动提取方法

运动表征采用预训练的 4D 人体运动重建方法提取（Goel 等，2023），该方法从视频输入中提取 3D 人体运动轨迹。

基准使用示例

每个样本包含：

关于运动比较或推理的问题
多项选择或二选一的答案
每个视频对应的运动表征

JSON 格式示例： json { "0001": { "v1": "Bench/s03/band_pull_apart/band_pull_apart_front_215_304.mp4", "v2": "Bench/s04/band_pull_apart/band_pull_apart_front_236_345.mp4", "q": "You are given a query motion in Video1 and a reference motion in Video2. Which of the following correction accurate and necessary to improve the query motion in Video1 based on the reference motion in Video2?", "c": [ "Hands level with your head at the beginning", "At the beginning, keep your hands below head level" ], "a": "A" } }

预处理与评估代码

官方代码仓库提供视频预处理和评估脚本，包括：

视频预处理管线
三个 MotionHalluc 任务的评估脚本
准确率计算脚本

GitHub 代码仓库：https://anonymous.4open.science/r/MotionHalluc-4E96

Fit3D 真实运动数据处理

因数据集许可限制，不重新分发 Fit3D 导出的运动数据
完整 Fit3D 真实运动处理管线将在论文接收后发布
当前版本使用 4D-Humans 运动表征进行评估

引用

该基准使用了 Fit3D 数据集和 4D-Human 方法，相关引用信息请参见原始页面。

搜集汇总

数据集介绍

构建方式

MotionHalluc基准数据集专为评估视频多模态模型中的运动幻觉与运动推理能力而设计。其构建依托于精心整理的注释数据，并采用先进的4D人体运动重建管线（基于Transformer架构）从视频中提取三维运动轨迹，形成与每个视频样本对应的运动表示文件（.npy格式）。数据集的注释以JSON格式组织，涵盖三类问答式评估任务，要求模型对跨视频的人体运动模式进行比较、推理与验证。由于原始视频的版权限制，数据集仅分发注释和运动表示，用户需从Fit3D官方来源自行下载视频素材。

特点

MotionHalluc的核心特色在于其专为运动幻觉检测设计的任务结构，通过多选或二值问答形式，迫使模型识别并纠正运动差异。每个样本均包含一段查询视频与一段参考视频，附带精准的运动表示文件，支持客观的模型性能评估。数据集规模适中（样本数介于1K至10K），兼顾了评测的全面性与计算效率。此外，其运动表示采用业界领先的4D-Humans方法提取，可作为真实运动数据的可靠代理，有效规避了原始运动捕捉数据的许可限制。

使用方法

使用MotionHalluc评测模型时，用户需首先从Fit3D数据集获取原始视频，并利用官方代码仓库提供的预处理流水线对齐数据。随后，将视频输入待测的多模态模型，结合JSON注释中的问题与选项生成回答。基准测试共包含三种任务类型，评估脚本可自动计算模型在各项任务上的准确率。由于运动表示已预先提取并附在数据集中，用户可直接将其作为参考信息使用，无需额外运行运动重建模型。最终结果可通过仓库中的评估脚本标准化输出，便于横向比较不同模型的运动推理能力。

背景与挑战

背景概述

随着视频理解领域对细粒度时空推理能力需求的日益增长，多模态大模型在人类运动感知和逻辑推理方面的表现成为研究焦点。MotionHalluc基准数据集于近年由匿名研究团队创建，专注于评估视频基础多模态模型在运动幻觉检测与运动推理中的能力。该数据集基于Fit3D数据集中的运动视频，结合4D-Humans运动重建管线提取的3D人体轨迹表示，设计了三类问答任务——运动比较、因果推理与正确性验证。其核心研究问题在于揭示当前模型在理解人类运动细微差异与复杂模式时的局限性，为运动感知领域提供标准化评估手段。该基准的推出填补了现有视频问答评测中运动推理任务的空白，对推动运动理解、动作评估及交互式AI系统的发展具有重要影响。

当前挑战

MotionHalluc数据集旨在应对视频多模态模型在运动推理领域的双重挑战。其一，现有模型普遍缺乏对运动中时序一致性与空间准确性的判别能力，运动幻觉问题严重——即在无变化或细微变化视频中错误报告运动属性或模式，这种缺陷限制了其在健身指导、运动反馈等实际场景中的可靠性。其二，数据构建过程中面临显著技术困难：原始视频的获取受限于Fit3D数据集许可协议，仅能分发标注与运动表征；运动提取依赖的4D-Humans管线虽性能优越，但重建误差可能引入噪声；同时，为生成高质量的问答对，需要对连续运动轨迹进行精确的语义对齐与逻辑设计，确保正例和负例的合理性，这对标注流程的精度提出了严苛要求。

常用场景

经典使用场景

在视频理解与多模态模型研究中，MotionHalluc数据集专为评估模型在人体运动推理任务中的表现而设计。其核心任务涵盖运动比较、因果推理与运动验证三大维度，要求模型在跨视频场景中精准识别运动模式差异。例如，模型需判断两个视频片段中人体动作的对称性、时序连贯性或运动幅度的一致性。该数据集通过结构化问答形式（如多项选择或二分类）提供标准化评估框架，尤其适合测试视觉语言模型（如VideoQA系统）对动态人体运动的感知与逻辑推断能力。研究者可利用其标注的3D运动表征与文本问题对齐，深入探究模型在细粒度运动理解上的鲁棒性与泛化能力。

解决学术问题

MotionHalluc填补了现有视频基准对运动幻觉与精细推理能力评估不足的空白。在学术层面，它系统性解决了两个关键问题：一是揭示多模态模型在运动时空建模中的局限性，例如对速度变化、关节角度偏差的敏感性；二是量化分析模型对运动先验知识的依赖程度，如是否混淆相似动作（如‘头部与手保持水平’与‘手低于头部’的细微差异）。该数据集的引入促使研究者重新审视模型架构中时序注意力机制与运动特征融合的策略，其发布的标准化评估指标为对比不同运动表征方法（如4D-Humans重建轨迹与原始光流）的效能提供了可靠基准，对推动无监督运动学习与因果推理理论发展具有显著意义。

衍生相关工作

围绕MotionHalluc的基准设计，衍生出一系列重要研究工作。首先，其运动表征提取方法（基于4D-Humans模型）推动了将单目视频映射为3D人体轨迹的技术路线，后续工作如Transformer-based时序姿态细化器被广泛借鉴以提升运动重建精度。其次，数据集的问答生成策略启发了运动语义对齐框架的开发，例如结合对比学习（Contrastive Learning）将视频运动特征与语言描述嵌入统一空间。此外，针对其揭示的模型幻觉现象，研究者提出了运动感知模块（Motion-Aware Attention）与反事实数据增强策略，显著降低模型对静态场景线索的过拟合。这些衍生贡献不仅强化了视频理解模型的运动推理能力，也为构建更具物理常识的具身智能系统奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集