MVP : Minimal Video Pairs

github2025-06-11 更新2025-06-12 收录

下载链接：

https://github.com/facebookresearch/minimal_video_pairs

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于时空和直觉物理视频理解（VideoQA）的基准数据集，通过最小差异视频对进行构建。

A benchmark dataset for spatiotemporal and intuitive physics video understanding (VideoQA), constructed using minimal difference video pairs.

创建时间：

2025-06-06

原始信息汇总

MVP : Minimal Video Pairs 数据集概述

数据集简介

目的：用于时空和直觉物理视频理解（VideoQA）的捷径感知基准测试，使用最小差异视频对。
特点：包含多个子集，涵盖人类物体交互、机器人物体交互、直觉物理与碰撞、时间推理等领域。

数据来源与子集

子集	数据来源
人类物体交互	PerceptionTest, SomethingSomethingV2
机器人物体交互	Language Table
直觉物理与碰撞	IntPhys, InfLevel, GRASP, CLEVRER
时间推理	STAR, Vinoground

数据获取

标注数据：发布于Huggingface Datasets的facebook/minimal_video_pairs。
视频下载：需接受各数据源的许可要求后，通过提供的脚本下载。

评估方法

评估工具：使用lmms-eval库进行可重复评估。
评估指标：主要报告paired_accuracy，要求模型在两个相关问题上均回答正确。

引用与许可

引用：需引用原始论文及使用的各数据源。
许可：遵循根目录中的LICENSE文件规定。

搜集汇总

数据集介绍

构建方式

MVP数据集通过整合多个开源视频数据集构建而成，涵盖人类与物体互动、机器人操作、直觉物理及碰撞、时间推理等四大领域。数据来源于PerceptionTest、SomethingSomethingV2、Language Table等九个子集，采用最小差异视频对（minimally different video pairs）的设计理念，确保每对视频仅在关键时空特征上存在细微差别。视频素材通过自动化脚本从原始数据源下载，并严格遵循各数据源的许可协议要求。

使用方法

使用MVP数据集需通过Hugging Face平台获取标注数据，并运行提供的Makefile脚本下载原始视频文件。评估流程基于lmms-eval框架实现，用户需将特定任务配置文件复制至评估库中。基准测试支持整体评估（mvp/mvp_mini）或按子集单独测试，结果以配对准确率（paired_accuracy）作为核心指标。研究成果可提交至Hugging Face的Physical Reasoning Leaderboard，需合并多个JSONL日志文件生成标准化提交格式。整个流程强调可复现性，要求预先配置conda环境并完成数据使用授权。

背景与挑战

背景概述

MVP（Minimal Video Pairs）数据集由Meta Fundamental AI Research（FAIR）团队于2025年推出，旨在通过最小差异视频对（minimally different video pairs）推动时空推理与直觉物理的视频理解研究。该数据集整合了来自Perception Test、SomethingSomethingV2、CLEVRER等9个前沿视频数据源的资源，聚焦人类-物体交互、机器人操作、直觉物理碰撞及时序推理四大核心场景。其创新性在于通过成对视频对比范式，强制模型捕捉细微的时空动态差异，从而规避传统视频问答（VideoQA）中常见的捷径学习问题。作为Physical World Models项目的重要组成部分，MVP为多模态推理与物理常识建模提供了标准化评估基准，显著提升了复杂视频理解的科学严谨性。

当前挑战

MVP数据集针对视频理解领域的两大核心挑战提出解决方案：其一，传统VideoQA任务易受表面统计规律干扰，而MVP通过强制模型分辨最小差异视频对，有效抑制了答案分布偏置等捷径策略；其二，构建过程中需协调多源异构数据（如真实世界交互与合成物理仿真视频），团队开发了统一的时空对齐框架与严格的伦理审查机制。技术挑战包括跨数据源的视频分辨率标准化、时间同步标注，以及平衡物理规律显性表征与真实场景复杂性之间的矛盾。此外，为确保评估可靠性，数据集采用‘双问题配对准确率’指标，要求模型必须同时正确回答同一问题的两个变体，这对现有多模态模型的细粒度推理能力提出了更高要求。

常用场景

经典使用场景

在视频理解与物理推理研究领域，MVP数据集通过呈现最小差异的视频对，为模型评估提供了独特视角。其经典使用场景聚焦于视频问答任务，要求模型从细微的时空变化中捕捉关键差异，进而回答与视频内容相关的问题。这种设计有效避免了模型依赖表面线索或捷径策略，推动了深度理解能力的发展。

解决学术问题

该数据集针对视频理解模型中存在的捷径学习问题提出了系统性解决方案。通过构建最小差异对，研究者能够精确评估模型是否真正掌握了时空推理和直观物理知识，而非依赖数据偏差。这一创新范式为视频问答、物理世界建模等研究方向提供了可靠的评估基准，显著提升了相关领域的严谨性。

实际应用

在实际应用层面，MVP数据集支撑了智能体物理推理能力的开发，为机器人操作、自动驾驶等场景提供测试基准。其包含的人机交互、物体碰撞等多样化子集，可直接用于验证系统在真实世界中的物理常识理解，加速了具身智能系统从仿真环境到实际部署的转化进程。

数据集最近研究