IntPhys 2

github2025-06-11 更新2025-06-12 收录

下载链接：

https://github.com/facebookresearch/IntPhys2

下载链接

链接失效反馈

官方服务：

资源简介：

IntPhys 2是一个视频基准数据集，旨在评估深度学习模型的直观物理理解能力。基于原始的IntPhys基准，IntPhys 2专注于与宏观物体相关的四个核心原则：持久性、不变性、时空连续性和固体性。这些条件受到早期儿童直观物理理解研究的启发。IntPhys 2提供了一套全面的测试，基于违反期望框架，挑战模型在受控和多样化的虚拟环境中区分可能和不可能事件的能力。

IntPhys 2 is a video benchmark dataset designed to evaluate the intuitive physical understanding capability of deep learning models. Building upon the original IntPhys benchmark, IntPhys 2 focuses on four core principles related to macroscopic objects: persistence, invariance, spatiotemporal continuity, and solidness. These conditions are inspired by early childhood research on intuitive physical understanding. IntPhys 2 provides a comprehensive set of tests, based on the violation of expectation framework, challenging the models' ability to differentiate between possible and impossible events in controlled and diverse virtual environments.

创建时间：

2025-05-31

原始信息汇总

IntPhys 2 数据集概述

数据集简介

IntPhys 2 是一个视频基准测试，旨在评估深度学习模型对直观物理的理解能力。该数据集基于四个核心原则：持久性、不变性、时空连续性和固体性，这些原则受到儿童早期直观物理理解研究的启发。

数据集内容

下载链接：
- Hugging Face
- 直接下载
包含内容：
- 数据加载器
- 评估多模态语言模型（MLLMs）和基于预测的模型的代码
- 用于创建IntPhys2的Unreal Engine 5.4资产和插件列表

数据集划分

划分	场景数	视频数	描述	用途
调试集	5	60	静态摄像机，明亮资产，3代生成	模型校准
主集	253	1,012	静态和移动摄像机，分为三个子集：<br>- 简单：简单环境，彩色形状<br>- 中等：多样化背景，纹理形状<br>- 困难：真实物体，复杂背景	主要评估集
保留集	86	344	移动摄像机，镜子困难子集，包括干扰物	测试集

评估方法

保留集评估：不提供元数据以防止训练数据污染，研究人员可在Leaderboard上传结果。
MLLMs评估代码：
- 使用IntPhys2_transformers.py运行开源模型
- 使用IntPhys2_openai.py运行OpenAI模型
- 使用IntPhys2_google_api.py运行Gemini模型
基于预测的模型评估代码：位于prediction_evals子文件夹，支持V-JEPA和VideoMAEv2模型。

许可证

IntPhys 2 采用CC BY-NC 4.0许可证，仅限于评估用途，禁止用于生成新内容的生成AI应用。

引用

如需使用IntPhys 2，请引用：

@misc{bordes2025intphys2, title={IntPhys 2: Benchmarking Intuitive Physics Understanding In Complex Synthetic Environments}, author={Florian Bordes and Quentin Garrido and Justine T Kao and Adina Williams and Michael Rabbat and Emmanuel Dupoux}, year={2025}, eprint={}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

IntPhys 2数据集通过虚拟引擎技术构建，采用Unreal Engine 5.4平台精心设计了一系列复杂合成环境。数据集围绕物体永久性、不可变性、时空连续性和坚固性四大核心物理原则，基于违反期望范式生成视频序列。研究团队购置了专业虚拟资产与插件，通过静态与动态摄像机捕捉不同难度层级的场景，最终形成包含调试集、主评估集和保留集的三重数据架构，共计生成1,416段视频素材。

特点

该数据集显著特点在于其多层级评估体系，包含简单彩色形状的Easy子集、多样化纹理背景的Medium子集以及真实物体复杂场景的Hard子集。视频内容严格遵循发展心理学理论，通过物理合理性判断任务揭示AI模型的认知局限。特别设计的保留集采用移动摄像机与镜面反射等干扰因素，有效检验模型在复杂动态场景中的物理推理能力。数据集严格区分训练与测试数据分布，确保评估结果的科学严谨性。

使用方法

研究人员可通过Hugging Face平台或直接下载链接获取数据集，利用提供的专用数据加载器快速接入模型。评估流程支持多模态大语言模型和预测型模型两类范式，包含基于Hugging Face Transformers库的开源模型接口、OpenAI官方API适配器以及Google Gemini API调用方案。针对视频预测模型特别开发了surprise度量计算模块，兼容V-JEPA和VideoMAEv2等先进架构。所有评估结果将自动生成于Results目录，并可通过指定配置文件灵活调整计算资源分配。

背景与挑战

背景概述

IntPhys 2是由Meta AI研究团队于2025年推出的视频基准测试数据集，旨在评估深度学习模型对直观物理规律的理解能力。该数据集基于早期儿童认知发展研究中提出的四大核心物理原则——持久性、不可变性、时空连续性和固体性，通过构建复杂合成环境中的可能事件与不可能事件，为模型性能评估提供标准化测试框架。作为原始IntPhys基准的扩展版本，IntPhys 2在场景复杂度和测试多样性方面实现显著提升，其研究成果发表于计算机视觉顶级会议，为人工智能系统实现类人物理推理能力树立了新的评估标准。

当前挑战

该数据集主要解决计算机视觉领域物理推理能力评估的挑战，其核心难点在于建立可量化的物理规律违反检测体系。在构建过程中，研究团队面临三维场景物理属性精确建模、视频生成过程中物理规律可控违反等技术难题，需通过Unreal Engine 5.4引擎实现高保真虚拟环境构建。评估结果表明，现有模型在复杂场景下的物理规律理解准确率仅为50%，与人类近100%的表现存在显著差距，反映出当前深度学习架构在物理常识建模方面的根本性缺陷。

常用场景

经典使用场景

在计算机视觉与认知科学交叉领域，IntPhys 2数据集被广泛用于评估深度学习模型对宏观物体运动规律的直觉物理理解能力。该数据集通过违反预期范式构建测试场景，要求模型区分可能事件与违反物理定律的异常事件，其精心设计的四类核心原则（持久性、不可变性、时空连续性和固体性）为研究模型是否具备类人物理推理能力提供了标准化测试平台。

实际应用

在工业机器人视觉导航、增强现实交互系统等实际场景中，IntPhys 2的评估标准可直接转化为系统鲁棒性指标。自动驾驶系统通过该数据集训练的物理预测模块，能更准确预判交通场景中物体的运动轨迹；家用服务机器人则借助此类基准优化对家居物品物理特性的理解，显著提升抓取和避障的可靠性。

衍生相关工作

基于IntPhys 2的评估范式，研究者们相继开发了V-JEPA等世界模型架构，该工作通过自监督学习框架显著提升了视频预测的物理合理性。Meta AI团队进一步提出的COSMOS基准将测试范围扩展到多物体交互场景，而剑桥大学开发的PhysNet则专注于建模材料变形等微观物理现象，这些衍生研究共同构成了物理常识推理的研究谱系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集