five

Hi-Phy

收藏
arXiv2021-08-29 更新2024-07-30 收录
下载链接:
https://github.com/Cheng-Xue/Hi-Phy
下载链接
链接失效反馈
官方服务:
资源简介:
一个用于测试个体物理推理能力的新基准,通过在视频游戏《愤怒的小鸟》中生成的物理推理任务来测试,根据物理推理能力的复杂性层次进行评估。

A novel benchmark for evaluating individual physical reasoning abilities, which employs physical reasoning tasks generated within the video game *Angry Birds* and assesses subjects based on the hierarchical complexity of their physical reasoning capabilities.
创建时间:
2021-06-18
原始信息汇总

Hi-Phy: A Benchmark for Hierarchical Physical Reasoning

数据集概述

Hi-Phy是一个用于层次化物理推理的基准测试,旨在评估和训练智能体在物理世界中的推理能力。该基准基于《愤怒的小鸟》游戏开发,包含65个任务模板,涵盖15种不同的物理推理能力。

数据集内容

1. 层次结构

Hi-Phy的层次结构分为三个级别,共包含15种物理推理能力:

  • 级别1:理解环境中物体在受到单一或多个力作用时的即时效应。
    • 1.1: 理解单一力作用下的即时效应。
    • 1.2: 理解多个力作用下的即时效应。
  • 级别2:理解物体在受力后的运动行为。
    • 2.1: 理解物体可能的滚动。
    • 2.2: 理解物体可能的坠落。
    • 2.3: 理解物体可能的滑动。
    • 2.4: 理解物体可能的反弹。
  • 级别3:执行需要复杂物理推理能力的任务。
    • 3.1: 理解物体的相对重量。
    • 3.2: 理解物体的相对高度。
    • 3.3: 理解物体的相对宽度。
    • 3.4: 理解物体的形状差异。
    • 3.5: 理解如何执行非贪婪行动。
    • 3.6: 理解结构弱点/稳定性。
    • 3.7: 理解如何清除通往目标的路径。
    • 3.8: 理解如何以适当的时机执行行动。
    • 3.9: 理解如何使用工具。

2. 任务示例

Hi-Phy中的任务示例展示了如何通过不同的物理推理能力来解决《愤怒的小鸟》中的关卡。每个任务都对应一个特定的物理推理能力,例如:

  • 1.1: 理解单一力作用下的即时效应。
  • 3.9: 理解如何使用工具(如蓝鸟的分裂能力)。

3. 任务生成器

任务生成器可以根据设计的任务模板生成新的任务。使用方法如下:

  1. 进入tasks/task_generator目录。
  2. 将需要的任务模板复制到input目录。
  3. 运行任务生成器并指定生成任务的数量。
  4. 生成的任务将保存在output目录中。

4. 基准分析任务

为基准分析生成了100个任务,每个任务模板对应一个任务。生成的任务文件位于tasks/generated_tasks.zip中,解压后按层次结构和能力分类存放。

数据集使用

5. 基准代理和框架

5.1 运行启发式代理

  1. 运行Java启发式代理(Datalab和Eagle Wings):
    • 准备测试配置文件并启动游戏接口。
    • 运行Datalab或Eagle Wings代理。
  2. 运行随机代理和猪射手:
    • 授予执行权限并运行相应的脚本。

5.2 运行DQN基准

  1. 训练DQN代理:
    • 训练代理进行能力内训练或模板内训练。
    • 保存训练好的模型。
  2. 测试DQN代理:
    • 测试代理在模板内的表现。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作