IntPhys 2

Name: IntPhys 2
Creator: FAIR at Meta
Published: 2025-06-11 23:21:16
License: 暂无描述

arXiv2025-06-11 更新2025-06-13 收录

下载链接：

https://github.com/facebookresearch/IntPhys2

下载链接

链接失效反馈

官方服务：

资源简介：

IntPhys 2 是一个视频基准数据集，旨在评估深度学习模型对直观物理学的理解能力。它基于原始的 IntPhys 基准，重点关注宏观物体的四个核心原则：持久性、不可变性、时空连续性和坚固性。这些原则灵感来源于儿童早期对直观物理理解的认知研究。IntPhys 2 提供了一套全面的测试，基于期望违背框架，挑战模型在受控和多样的虚拟环境中区分可能和不可能的事件。该数据集包含 1416 个视频，分为三个不同的子集。视频分为可能的和不可能的结果，以及包含和排除障碍物的情况。IntPhys 2 使用 Unreal Engine 创建了逼真的环境，包括动态阴影和照明，以更好地模拟现实世界。数据集设计用于评估模型在处理遮挡和复杂场景时的物理理解能力。

IntPhys 2 is a video benchmark dataset developed to assess the intuitive physics understanding capabilities of deep learning models. Building upon the original IntPhys benchmark, it focuses on four core principles governing macroscopic objects: persistence, invariance, spatiotemporal continuity, and solidity. These principles are inspired by cognitive research on early intuitive physical comprehension in young children. IntPhys 2 provides a comprehensive test suite grounded in the expectation-violation framework, challenging models to distinguish between possible and impossible events within controlled and diverse virtual environments. The dataset contains 1,416 videos divided into three distinct subsets. The videos are categorized by two dimensions: possible versus impossible outcomes, and scenarios with versus without obstacles. IntPhys 2 uses Unreal Engine to create realistic environments featuring dynamic shadows and lighting to better simulate the real world. The dataset is designed to evaluate models' physical understanding capabilities when dealing with occlusion and complex scenes.

提供机构：

FAIR at Meta

创建时间：

2025-06-11

原始信息汇总

IntPhys 2 数据集概述

数据集简介

IntPhys 2是一个视频基准测试，旨在评估深度学习模型对直观物理的理解能力。该数据集基于四个核心物理原则：持久性、不变性、时空连续性和固体性，这些原则受到儿童早期直观物理理解研究的启发。数据集通过违反期望框架，要求模型在受控和多样化的虚拟环境中区分可能和不可能的事件。

数据集内容

下载链接：Hugging Face 或直接下载
代码库包含：
- 数据集下载链接
- 数据加载器
- 用于评估多模态语言模型（MLLMs）和基于预测的模型的代码
- 用于创建IntPhys 2的Unreal Engine 5.4资产和插件列表

数据集划分

划分	场景数	视频数	描述	用途
调试集	5	60	静态摄像头，明亮资产，3代生成	模型校准
主集	253	1,012	静态和移动摄像头，包含三个子集：<br>- 简单：简单环境，彩色形状<br>- 中等：多样化背景，纹理形状<br>- 困难：真实物体，复杂背景	主要评估集
保留集	86	344	移动摄像头，镜子困难子集，包括干扰物	测试集

评估方法

MLLMs评估：提供代码支持开源模型（如Qwen-VL 2.5）和商业API（如OpenAI和Gemini）。
基于预测的模型评估：提供代码提取惊讶度指标，兼容V-JEPA和VideoMAEv2模型。

许可证

IntPhys 2采用CC BY-NC 4.0许可证，仅限于评估用途。禁止用于生成新的内容（如音频、视觉或文本）。

引用

如需使用IntPhys 2，请引用：

@misc{bordes2025intphys2benchmarkingintuitive, title={IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments}, author={Florian Bordes and Quentin Garrido and Justine T Kao and Adina Williams and Michael Rabbat and Emmanuel Dupoux}, year={2025}, eprint={2506.09849}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.09849}, }

搜集汇总

数据集介绍

构建方式

IntPhys 2数据集的构建基于Unreal Engine的高保真渲染技术，通过精心设计的虚拟场景模拟真实物理环境。研究团队采用了四重视频结构，每个场景包含两段符合物理规律的可能事件视频和两段违反物理规律的不可能事件视频，以确保模型必须依赖高层次物理理解而非低层次视觉特征。数据集包含1416段视频，分为调试集、主测试集和保留集三个部分，其中主测试集进一步划分为简单、中等和困难三个难度级别，以全面评估模型在不同复杂度场景下的表现。视频生成过程中采用了动态光影和多样化遮挡策略，包括固定和移动摄像机视角，以增强场景的真实性和挑战性。

特点

IntPhys 2数据集的核心特点在于其对四种基本物理原则的系统性测试：物体恒存性、不可变性、时空连续性和固体性。数据集通过高保真虚拟环境实现了远超前作的视觉真实感，包含复杂的动态遮挡和多样化场景设置。特别值得注意的是，数据集中约30%的视频采用移动摄像机视角，模拟真实观察中的自然遮挡情况，这对模型的短时记忆能力提出了更高要求。与同类数据集相比，IntPhys 2的遮挡持续时间分布更广（0.5-4秒），能够更准确地评估模型对暂时不可见物体的持续表征能力。数据集还包含精心设计的调试集，用于检测模型对视频生成伪影（如压缩噪声）的鲁棒性。

使用方法

使用IntPhys 2进行评估时，建议采用零样本测试范式以避免训练数据污染。对于预测型模型，推荐基于期望违背框架的评估协议：将视频分割为重叠的时间窗口，通过比较模型对可能和不可能事件的预测误差来量化其物理理解能力。多模态大语言模型可采用精心设计的提示模板进行评估，需注意不同提示格式（是/否与二进制回答）可能显著影响模型表现。评估时应分别在调试集、主测试集（含三个难度子集）和保留集上进行，其中保留集仅提供视频文件以检测潜在的训练数据泄露。对于视频处理，建议尝试多种帧采样率和上下文长度组合，因为模型性能对这些超参数通常较为敏感。人类基准测试显示平均准确率达96.4%，可作为模型表现的参照标准。

背景与挑战

背景概述

IntPhys 2是由Meta的FAIR团队于2025年提出的视频基准数据集，旨在评估深度学习模型在复杂合成环境中对直观物理学的理解能力。该数据集基于早期儿童认知发展研究中提出的四大核心物理原则：持久性、不变性、时空连续性和固体性。通过构建包含1416个视频的多样化测试套件，IntPhys 2采用期望违背范式，要求模型在受控虚拟环境中区分可能和不可能事件。相较于前代IntPhys基准，该数据集显著提升了场景复杂度和真实感，采用虚幻引擎构建具有动态光影效果的光照真实环境，并引入固定与移动相机视角以模拟自然观察条件。其创新性设计为人工智能系统建立新的性能基线，揭示了当前模型与人类物理认知之间的显著差距。

当前挑战

IntPhys 2数据集面临双重挑战：在领域问题层面，当前最先进的多模态大语言模型和预测模型在四项物理原则理解上的准确率仅接近随机水平（50%），与人类近完美的表现形成鲜明对比，特别是在处理移动相机拍摄的复杂场景时表现更差。在构建技术层面，数据集创建需克服三大难题：1）如何设计违反物理定律但视觉合理的视频序列，这要求精确控制三维引擎的物理参数；2）平衡场景多样性需求与避免过度拟合风险，需精心设计三个数据子集（调试集、主集和保留集）；3）解决动态遮挡条件下的短期记忆测试需求，这要求设计精确的相机运动轨迹和物体交互时序。此外，评估协议需要适应不同模型的输入限制，如处理长视频序列时的帧采样策略优化问题。

常用场景

经典使用场景

IntPhys 2数据集作为评估深度学习模型在复杂合成环境中直观物理理解能力的基准工具，其经典使用场景主要集中在通过违反期望框架（VoE）设计视频测试。这些测试要求模型在受控且多样化的虚拟环境中区分可能事件与不可能事件，从而系统评估模型对物体持久性、不可变性、时空连续性和固体性等核心物理原则的掌握程度。数据集通过精心设计的视频四联体结构（两段可能事件与两段不可能事件交叉对比），有效消除低层次感知偏差，迫使模型依赖高层次物理推理进行判断。

实际应用

在自动驾驶和机器人交互等现实场景中，IntPhys 2的评估范式具有直接应用价值。例如，自动驾驶系统需准确预测被临时遮挡行人的重现位置（对应持久性原则），家庭服务机器人需判断易碎物品的材质特性（对应不可变原则）。数据集通过Unreal Engine构建的光照阴影动态变化、移动摄像机视角等逼真环境，模拟了真实世界中的视觉复杂性，使得通过该基准测试的模型能更好地迁移到实际应用。Meta团队已将其部署于视觉-语言联合建模系统的物理常识验证环节。

衍生相关工作

该数据集推动了多项衍生研究：1）V-JEPA系列模型通过潜在空间预测框架提升了对时空连续性的建模能力；2）Gemini 2.5 Flash展示了多模态大语言模型在简单物理场景中的初步推理潜力；3）VideoMAEv2探索了像素级预测与物理规律学习的关联性。相关成果发表在NeurIPS和ICLR等顶级会议，其中Garrido等人（2025）提出的自监督视频预训练方法直接受IntPhys 2评估协议启发，显著提升了模型在GRASP和Physion++等关联基准上的表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集