Hi-Phy
收藏arXiv2021-08-29 更新2024-07-30 收录
下载链接:
https://github.com/Cheng-Xue/Hi-Phy
下载链接
链接失效反馈官方服务:
资源简介:
一个用于测试个体物理推理能力的新基准,通过在视频游戏《愤怒的小鸟》中生成的物理推理任务来测试,根据物理推理能力的复杂性层次进行评估。
A novel benchmark for evaluating individual physical reasoning abilities, which employs physical reasoning tasks generated within the video game *Angry Birds* and assesses subjects based on the hierarchical complexity of their physical reasoning capabilities.
创建时间:
2021-06-18
原始信息汇总
Hi-Phy: A Benchmark for Hierarchical Physical Reasoning
数据集概述
Hi-Phy是一个用于层次化物理推理的基准测试,旨在评估和训练智能体在物理世界中的推理能力。该基准基于《愤怒的小鸟》游戏开发,包含65个任务模板,涵盖15种不同的物理推理能力。
数据集内容
1. 层次结构
Hi-Phy的层次结构分为三个级别,共包含15种物理推理能力:
- 级别1:理解环境中物体在受到单一或多个力作用时的即时效应。
- 1.1: 理解单一力作用下的即时效应。
- 1.2: 理解多个力作用下的即时效应。
- 级别2:理解物体在受力后的运动行为。
- 2.1: 理解物体可能的滚动。
- 2.2: 理解物体可能的坠落。
- 2.3: 理解物体可能的滑动。
- 2.4: 理解物体可能的反弹。
- 级别3:执行需要复杂物理推理能力的任务。
- 3.1: 理解物体的相对重量。
- 3.2: 理解物体的相对高度。
- 3.3: 理解物体的相对宽度。
- 3.4: 理解物体的形状差异。
- 3.5: 理解如何执行非贪婪行动。
- 3.6: 理解结构弱点/稳定性。
- 3.7: 理解如何清除通往目标的路径。
- 3.8: 理解如何以适当的时机执行行动。
- 3.9: 理解如何使用工具。
2. 任务示例
Hi-Phy中的任务示例展示了如何通过不同的物理推理能力来解决《愤怒的小鸟》中的关卡。每个任务都对应一个特定的物理推理能力,例如:
- 1.1: 理解单一力作用下的即时效应。
- 3.9: 理解如何使用工具(如蓝鸟的分裂能力)。
3. 任务生成器
任务生成器可以根据设计的任务模板生成新的任务。使用方法如下:
- 进入
tasks/task_generator目录。 - 将需要的任务模板复制到
input目录。 - 运行任务生成器并指定生成任务的数量。
- 生成的任务将保存在
output目录中。
4. 基准分析任务
为基准分析生成了100个任务,每个任务模板对应一个任务。生成的任务文件位于tasks/generated_tasks.zip中,解压后按层次结构和能力分类存放。
数据集使用
5. 基准代理和框架
5.1 运行启发式代理
- 运行Java启发式代理(Datalab和Eagle Wings):
- 准备测试配置文件并启动游戏接口。
- 运行Datalab或Eagle Wings代理。
- 运行随机代理和猪射手:
- 授予执行权限并运行相应的脚本。
5.2 运行DQN基准
- 训练DQN代理:
- 训练代理进行能力内训练或模板内训练。
- 保存训练好的模型。
- 测试DQN代理:
- 测试代理在模板内的表现。



