Hi-Phy

arXiv2021-08-29 更新2024-07-30 收录

下载链接：

https://github.com/Cheng-Xue/Hi-Phy

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于测试个体物理推理能力的新基准，通过在视频游戏《愤怒的小鸟》中生成的物理推理任务来测试，根据物理推理能力的复杂性层次进行评估。

A novel benchmark for evaluating individual physical reasoning abilities, which employs physical reasoning tasks generated within the video game *Angry Birds* and assesses subjects based on the hierarchical complexity of their physical reasoning capabilities.

创建时间：

2021-06-18

原始信息汇总

Hi-Phy: A Benchmark for Hierarchical Physical Reasoning

数据集概述

Hi-Phy是一个用于层次化物理推理的基准测试，旨在评估和训练智能体在物理世界中的推理能力。该基准基于《愤怒的小鸟》游戏开发，包含65个任务模板，涵盖15种不同的物理推理能力。

数据集内容

1. 层次结构

Hi-Phy的层次结构分为三个级别，共包含15种物理推理能力：

级别1：理解环境中物体在受到单一或多个力作用时的即时效应。
- 1.1: 理解单一力作用下的即时效应。
- 1.2: 理解多个力作用下的即时效应。
级别2：理解物体在受力后的运动行为。
- 2.1: 理解物体可能的滚动。
- 2.2: 理解物体可能的坠落。
- 2.3: 理解物体可能的滑动。
- 2.4: 理解物体可能的反弹。
级别3：执行需要复杂物理推理能力的任务。
- 3.1: 理解物体的相对重量。
- 3.2: 理解物体的相对高度。
- 3.3: 理解物体的相对宽度。
- 3.4: 理解物体的形状差异。
- 3.5: 理解如何执行非贪婪行动。
- 3.6: 理解结构弱点/稳定性。
- 3.7: 理解如何清除通往目标的路径。
- 3.8: 理解如何以适当的时机执行行动。
- 3.9: 理解如何使用工具。

2. 任务示例

Hi-Phy中的任务示例展示了如何通过不同的物理推理能力来解决《愤怒的小鸟》中的关卡。每个任务都对应一个特定的物理推理能力，例如：

1.1: 理解单一力作用下的即时效应。
3.9: 理解如何使用工具（如蓝鸟的分裂能力）。

3. 任务生成器

任务生成器可以根据设计的任务模板生成新的任务。使用方法如下：

进入tasks/task_generator目录。
将需要的任务模板复制到input目录。
运行任务生成器并指定生成任务的数量。
生成的任务将保存在output目录中。

4. 基准分析任务

为基准分析生成了100个任务，每个任务模板对应一个任务。生成的任务文件位于tasks/generated_tasks.zip中，解压后按层次结构和能力分类存放。

数据集使用

5. 基准代理和框架

5.1 运行启发式代理

运行Java启发式代理（Datalab和Eagle Wings）：
- 准备测试配置文件并启动游戏接口。
- 运行Datalab或Eagle Wings代理。
运行随机代理和猪射手：
- 授予执行权限并运行相应的脚本。

5.2 运行DQN基准

训练DQN代理：
- 训练代理进行能力内训练或模板内训练。
- 保存训练好的模型。
测试DQN代理：
- 测试代理在模板内的表现。

5,000+

优质数据集

54 个

任务类型

进入经典数据集