IntPhys 2019

Name: IntPhys 2019
Creator: 法国国家科学研究中心/巴黎笛卡尔大学
Published: 2020-02-11 18:05:20
License: 暂无描述

arXiv2020-02-11 更新2024-06-21 收录

下载链接：

https://intphys.com/

下载链接

链接失效反馈

官方服务：

资源简介：

IntPhys 2019是由法国国家科学研究中心和巴黎笛卡尔大学创建的视觉物理理解评估基准。该数据集包含15000个可能事件的视频，总时长约21小时，用于训练和测试机器对物理世界的理解能力。数据集通过游戏引擎生成，确保了视频内容的高质量和多样性。IntPhys 2019旨在通过测试系统对物理原则的理解，如物体永久性、形状恒常性和时空连续性，来推动人工智能在复杂视觉任务上的表现。该数据集的应用领域包括自动驾驶、工作场所或家庭机器人等，旨在解决机器在现实世界中对物理现象的理解和适应问题。

IntPhys 2019 is a visual physics understanding evaluation benchmark developed by the French National Centre for Scientific Research (CNRS) and Paris Descartes University. This dataset comprises 15,000 videos of hypothetical physical events, with a total duration of approximately 21 hours, and is used for training and evaluating machines' ability to comprehend the physical world. Produced using game engines, the dataset ensures high quality and diversity of its video content. IntPhys 2019 aims to advance the performance of artificial intelligence in complex visual tasks by testing systems' understanding of core physical principles including object permanence, shape constancy, and spatiotemporal continuity. Application scenarios of this dataset cover autonomous driving, workplace or home robotics, and other fields, with the objective of addressing challenges in machine understanding and adaptation to physical phenomena in the real world.

提供机构：

法国国家科学研究中心/巴黎笛卡尔大学

创建时间：

2018-03-21

搜集汇总

数据集介绍

构建方式

在视觉直观物理理解领域，IntPhys 2019数据集的构建借鉴了发展心理学中婴儿直观物理学习的实验范式，特别是“期望违背”方法。该数据集通过虚幻引擎4.0程序化生成视频片段，精心设计了可能事件与不可能事件的对比。构建过程采用像素匹配的四元组设计，确保可能视频与不可能视频在帧级像素上高度一致，仅通过时间连贯性区分，从而消除低级视觉偏差。每个测试块涵盖物体永久性、形状恒常性和时空连续性三个基本物理概念，并通过参数化方式调控场景复杂度，包括物体数量、运动模式及遮挡条件，以系统化评估模型的物理推理能力。

使用方法

使用IntPhys 2019数据集时，研究者需首先在仅包含可能事件的训练集上训练模型，通常采用未来帧预测或语义掩码预测等无监督目标。模型需为每个测试视频输出一个标量合理性分数，该分数可基于预测误差、后验概率或判别器得分等机制计算。评估阶段通过提交分数至CodaLab平台自动计算相对与绝对错误率，并可在官方排行榜上比较性能。数据集的开发集可用于超参数调优与架构选择，但模型参数应仅基于训练集优化。该基准测试兼容多种视觉系统，包括视觉问答、三维重建与目标跟踪等，只要系统能输出整体视频合理性评分即可参与评估。

背景与挑战

背景概述

在人工智能视觉领域，实现复杂场景的常识推理一直是核心挑战。受婴幼儿直觉物理学研究的启发，IntPhys 2019数据集于2019年由法国高等师范学院、INRIA、Facebook AI Research及CNRS等机构的研究团队联合创建，旨在评估系统对宏观物体物理规律的理解能力。该数据集通过游戏引擎构建了可能事件与不可能事件的匹配视频，要求模型输出物理合理性评分，从而诊断其物理推理水平。作为DARPA机器常识项目的首轮评估基准，它聚焦于物体恒存性、形状恒常性与时空连续性三个基本概念，推动了无监督学习与物理理解交叉领域的研究进展。

当前挑战

IntPhys 2019数据集致力于解决视觉直觉物理学理解的核心挑战，即如何让机器系统像人类一样从视频中推断物理规律。具体挑战包括：在领域层面，模型需区分可能事件与不可能事件，尤其在物体被遮挡或运动复杂时，保持对物体属性、轨迹的连贯推理；在构建层面，数据集设计需确保视频匹配的精确性，避免低级偏差，例如通过像素级匹配的四元组视频消除表面线索干扰，同时通过程序化生成大量变体以增强泛化难度，并平衡训练集仅含可能事件与测试集涵盖多样不可能场景之间的对立需求。

常用场景

经典使用场景

在计算机视觉与人工智能领域，IntPhys 2019数据集被广泛用于评估模型对直观物理规律的理解能力。该数据集通过精心设计的可能事件与不可能事件视频对，要求模型输出物理合理性分数，从而检验其是否掌握了物体持久性、形状恒常性和时空连续性等基本物理概念。这一经典使用场景为研究者提供了一个标准化测试平台，用以衡量模型在无监督学习环境下对物理世界的推理能力。

解决学术问题

IntPhys 2019数据集主要解决了机器学习中直观物理建模的评估难题。传统方法依赖像素级预测误差，难以直接衡量模型对物理规律的理解深度。该数据集通过引入违反期望范式，将物理合理性判断转化为分类任务，从而能够系统性地探测模型对物体属性守恒、运动轨迹连续性等核心概念的掌握情况。其意义在于为物理推理研究提供了可解释、无偏差的评估工具，推动了模型从低层视觉特征向高层语义理解的演进。

实际应用

在实际应用中，IntPhys 2019数据集为自动驾驶、家庭机器人等需要物理常识的智能系统提供了关键测试基准。通过训练模型区分物理合理与不合理的事件，系统能够在复杂动态环境中更可靠地预测物体行为，避免因违反物理规律而产生错误决策。例如，在机器人导航中，模型对物体持久性的理解可帮助其在遮挡情况下持续跟踪目标，提升在真实世界中的适应性与安全性。

数据集最近研究