GRASP
收藏arXiv2024-07-02 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2407.01892v1
下载链接
链接失效反馈官方服务:
资源简介:
GRASP数据集由信息科学研究所 USC Viterbi 工程学院创建,是一个用于评估大型语言模型(LLMs)在网格环境中常识空间推理能力的大型基准。该数据集包含16000个不同的网格实例,每个实例都是一个二维数组,包含空单元格、障碍物或能量单元。数据集的创建过程涉及多种能量分布模式和障碍配置,旨在模拟现实世界中的导航和资源收集场景。GRASP数据集主要用于评估和提升LLMs在空间推理和规划方面的能力,特别是在复杂环境中的导航和资源管理。
The GRASP dataset was created by the Information Sciences Institute of the USC Viterbi School of Engineering, and it is a large-scale benchmark for evaluating the commonsense spatial reasoning capabilities of Large Language Models (LLMs) in grid-based environments. This dataset contains 16,000 distinct grid instances, each of which is a two-dimensional array composed of empty cells, obstacles, or energy units. The creation of this dataset involves multiple energy distribution patterns and obstacle configurations, aiming to simulate real-world navigation and resource collection scenarios. The GRASP dataset is primarily used to evaluate and enhance the spatial reasoning and planning capabilities of LLMs, particularly for navigation and resource management in complex environments.
提供机构:
信息科学研究所 USC Viterbi 工程学院
创建时间:
2024-07-02
搜集汇总
数据集介绍

构建方式
GRASP数据集通过构建一个由16000个基于网格的环境组成的大型基准测试,旨在评估大型语言模型在空间推理方面的能力。每个环境都是一个11x11的网格,包含空格、障碍物和能量单元。数据集包括100个实例,每个实例都使用160种不同的网格设置,涉及五种不同的能量分布、两种代理起始位置模式和两种不同的障碍物配置,以及三种类型的代理约束。这些环境为代理提供了一个能量收集任务,代理需要在固定的步数内收集尽可能多的能量并返回起点。
特点
GRASP数据集的特点在于它直接评估了LLMs在空间推理场景中产生的计划,而不是像现有基准测试那样评估LLMs对基于文本的空间描述的解释。GRASP的网格环境具有多种能量分布模式,包括随机、垂直倾斜、水平倾斜、集群和螺旋分布,这些模式挑战了代理识别差异并基于不同资源分布调整策略的能力。此外,障碍物随机放置在网格中,代理的起始位置在网格的指定内部或外部区域随机化,测试了代理对不同起始场景的适应性。最后,数据集引入了各种约束条件,如代理的最大能量携带限制和每步行动的成本,以进一步测试代理的空间推理和规划能力。
使用方法
GRASP数据集的使用方法包括将网格环境直接集成到文本中,以便LLMs可以直接解释和行动。为了评估LLMs的空间推理能力,我们提供了两种基线方法(随机游走和贪婪搜索)和两种先进的LLMs(GPT-3.5-Turbo和GPT-4o)的性能比较。实验结果表明,即使是这些先进的LLMs也很难始终如一地获得令人满意的解决方案。在使用GRASP时,研究人员可以设计不同的代理约束条件,例如改变能量分布模式、障碍物配置、代理起始位置和代理行动的限制,以评估LLMs在不同条件下的空间推理能力。
背景与挑战
背景概述
空间推理是人类认知的重要能力,它不仅涉及对物体间空间关系的识别和理解,还涉及到利用这些关系进行有效导航和操纵物体。为了评估大型语言模型(LLMs)的空间推理能力,Tang和Kejriwal(2024)构建了一个名为GRASP的大规模基准数据集。该数据集由16,000个基于网格的环境组成,其中智能体被赋予一个能量收集任务。这些环境包括100个网格实例,每个实例使用160种不同的网格设置,涉及五种不同的能量分布、两种智能体起始位置模式和两种不同的障碍配置,以及三种智能体约束。GRASP旨在评估LLMs在结构化网格环境中的常识空间推理(CSR)能力,强调空间信息的实用应用,并直接评估LLMs在空间推理场景中生成的计划。GRASP的创建为评估LLMs的空间推理能力提供了新的视角,并为相关领域的研究提供了重要数据支持。
当前挑战
GRASP数据集面临的挑战主要包括:1)所解决的领域问题的挑战:尽管GRASP提供了丰富的空间推理场景,但其合成性质可能无法完全捕捉现实世界中CSR任务的复杂性,包括更动态、更不可预测的环境,以及更多样化的物体和部分或隐藏的空间信息。2)构建过程中所遇到的挑战:GRASP的数据集构建过程中需要考虑各种变量和参数,以确保环境的多样性和挑战性。同时,为了更好地反映现实世界的复杂性,GRASP需要扩展到包括更多动态环境和多智能体场景。此外,由于LLMs的多模态能力可能存在幻觉问题,因此需要进一步研究和开发更可靠的多模态视觉信息处理能力,以提供更丰富的空间信息。
常用场景
经典使用场景
在空间推理能力的评估中,GRASP数据集被广泛应用于测试大型语言模型(LLMs)的空间推理能力。该数据集提供了一个基于网格的环境,其中代理被赋予一个能量收集任务,需要在固定的步骤内收集尽可能多的能量。这种场景模拟了现实世界中的问题,例如在有限的时间内收集资源并避开障碍。GRASP数据集的多样性和复杂性使其成为评估LLMs空间推理能力的理想工具。
解决学术问题
GRASP数据集解决了现有空间推理评估方法中存在的问题,即过于依赖文本描述或视觉元素来传达空间信息,而忽视了空间推理的实际应用。GRASP数据集通过直接集成文本渲染的网格环境,允许对LLMs的空间推理能力进行更直接的评估。此外,GRASP数据集还解决了LLMs在解决空间推理任务时缺乏规划能力的问题,通过引入各种代理约束,如能量携带限制和步骤成本,来评估LLMs的规划和决策能力。
衍生相关工作
GRASP数据集的提出引起了学术界和工业界的广泛关注,并衍生出一系列相关的研究工作。例如,一些研究工作利用GRASP数据集来评估LLMs在不同约束条件下的空间推理能力,并探索如何提高LLMs的规划和决策能力。此外,一些研究工作还将GRASP数据集与其他空间推理评估方法进行比较,以评估不同方法的优缺点。此外,GRASP数据集还被用于开发新的空间推理评估方法,以提高评估的准确性和可靠性。
以上内容由遇见数据集搜集并总结生成



