PlanQA

Name: PlanQA
Creator: KAUST
Published: 2025-07-10 19:16:48
License: 暂无描述

arXiv2025-07-10 更新2025-07-12 收录

下载链接：

https://OldDelorean.github.io/PlanQA/

下载链接

链接失效反馈

官方服务：

资源简介：

PlanQA是一个诊断性基准，用于评估大型语言模型（LLMs）在室内场景中进行几何和空间推理的能力。数据集包含1800个结构化的2D室内布局，包括厨房、客厅和卧室，每个布局都配有一个自然语言问题，要求模型计算距离、评估放置可行性、评估可见性以及推理空间约束。数据集涵盖了各种问题类型，包括度量推理、拓扑推理以及室内设计约束，例如可达性、间隙、平衡和可用性。通过这个数据集，研究人员可以评估LLMs在模拟物理约束、保持空间连贯性或对布局扰动进行泛化方面的能力。

PlanQA is a diagnostic benchmark designed to evaluate the geometric and spatial reasoning capabilities of large language models (LLMs) in indoor scene contexts. The dataset consists of 1,800 structured 2D indoor layouts spanning kitchens, living rooms, and bedrooms, each paired with a natural language question that requires the model to compute distances, assess placement feasibility, evaluate visibility, and reason about spatial constraints. The dataset encompasses a diverse set of question types, including metric reasoning, topological reasoning, and indoor design constraints such as accessibility, clearance, balance, and usability. Using this benchmark, researchers can evaluate the capabilities of LLMs to simulate physical constraints, maintain spatial coherence, or generalize to layout perturbations.

提供机构：

KAUST

创建时间：

2025-07-10

原始信息汇总

PlanQA: 基于结构化表示的大语言模型空间推理基准

数据集概述

名称: PlanQA
类型: 诊断性基准测试
目的: 评估大语言模型(LLMs)在几何和空间推理方面的能力
应用场景: 室内场景(厨房、客厅、卧室)的空间布局分析

核心特征

数据表示: 使用符号化格式(JSON/XML)编码的室内场景结构化表示
问题类型:
- 度量推理(距离、面积)
- 拓扑推理(可见性、最短路径)
- 室内设计约束(可及性、间隙、平衡性、可用性)

技术细节

布局生成: 程序化生成，使用明确的空间约束并验证功能可行性
房间类型: 厨房(K)、客厅(L)、卧室(B)
几何配置: 矩形、L形、开放式

评估模型

大模型组:
- Qwen3-32B
- DeepSeek-R1/V3
- LLaMA 3.3-70B
- Gemma 2-27B
- Phi-4
- GPT-4.1
小模型组:
- LLaMA 3.1-8B
- Gemma 2-9B
- Phi 3.5-mini
- GPT-4o-mini

评估指标

准确率分类:
- 距离计算
- 区域统计(台面/座位/存储)
- 自由空间
- 视角分析
- 重新定位
- 最大容纳箱体
- 适配/放置
- 路径有效性
- 路径相似度(Fréchet)
- 缺失物体检测
- 障碍物识别

引用格式

bibtex @article{rodionov2025planqa, author = {Rodionov, Fedor and Eldesokey, Abdelrahman and Birsak, Michael and Femiani, John and Ghanem, Bernard and Wonka, Peter}, title = {PlanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations}, journal = {arXiv preprint}, year = {2025} }

许可协议

许可证: Creative Commons Attribution-ShareAlike 4.0 International

搜集汇总

数据集介绍

构建方式

PlanQA数据集通过结构化表示方法构建，专注于评估大语言模型在几何和空间推理方面的能力。数据集包含1,800个二维室内场景布局（厨房、客厅和卧室各600个），采用JSON和XML等符号格式编码。每个布局与自然语言问题配对，涵盖度量推理、拓扑关系、功能约束等多种空间推理任务。数据生成过程分为两个阶段：首先通过大型语言模型（Gemini 2.5 Pro）生成符合几何约束的合成布局，随后基于参数化模板自动生成问题，并通过空间有效性检查过滤约三分之一的候选布局以确保功能合理性。

特点

PlanQA的核心特点在于其结构化空间表征与多样化问题类型的结合。数据集通过符号化编码（如对象坐标、尺寸和朝向）精确描述场景布局，避免了视觉或自然语言描述的模糊性。问题设计覆盖五大认知技能集群：度量计算（距离、面积）、拓扑关系（自由空间）、几何规划（物体摆放可行性）、视觉逻辑（视线遮挡）以及规则验证（设计约束合规性）。特别值得注意的是，该数据集通过扰动实验验证了模型对布局微小变化的鲁棒性，并针对不同房间类型（规则网格的厨房 vs 有机布局的卧室）设计了差异化问题，揭示了模型推理能力的场景依赖性。

使用方法

使用PlanQA需遵循严格的零样本评估协议：将JSON/XML格式的布局描述与自然语言问题拼接为输入，要求模型直接生成推理步骤和最终答案。评估时采用自动化判分系统，根据问题类型应用不同指标——数值类问题允许2%的相对误差，布尔类需完全匹配，而路径规划等结构化输出则通过几何验证（如Fréchet距离≤0.6米）。为隔离模型的原生推理能力，禁止使用外部空间求解器或视觉基础模型。典型工作流程包括：解析布局的符号化对象列表→提取问题相关的空间参数（如物体质心坐标）→执行链式推理→输出符合指定格式的答案。数据集特别适用于诊断模型在约束满足、空间连贯性保持及布局扰动泛化等方面的能力边界。

背景与挑战

背景概述

PlanQA是由KAUST和迈阿密大学的研究团队于2025年提出的诊断性基准数据集，旨在评估大语言模型（LLMs）在几何和空间推理方面的能力。该数据集基于结构化表示的室内场景（如厨房、客厅和卧室），采用符号化格式（如JSON、XML布局）编码。PlanQA包含多样化的题型，不仅测试度量和拓扑推理（如距离、可见性、最短路径），还涵盖室内设计约束（如功能适用性、间隙、平衡和可用性）。该数据集的推出填补了现有基准在结构化空间推理评估方面的空白，为建筑设计、辅助规划和具身交互等领域的空间理解研究提供了重要工具。

当前挑战

PlanQA面临的挑战主要体现在两个方面：领域问题的复杂性和构建过程的严谨性。在领域层面，该数据集需要解决LLMs在真实世界布局中空间推理不一致的核心问题，特别是物理约束模拟、空间连贯性保持和布局扰动下的泛化能力等关键挑战。在构建过程中，研究团队面临合成数据生成的合法性挑战（因版权问题无法使用现有平面图数据集）、几何一致性的验证难题（需自动过滤约1/3不符合功能可行性的候选布局），以及保持问题多样性与评估标准统一性的平衡问题。此外，如何确保18,000个问题在18种任务类型和3种房间类型中的均衡分布，同时维持严格的确定性评估协议，构成了显著的工程挑战。

常用场景

经典使用场景

PlanQA数据集专为评估大语言模型（LLMs）在几何和空间推理任务中的能力而设计。其经典使用场景包括对室内场景（如厨房、客厅和卧室）的二维平面布局进行符号化表示（如JSON或XML格式），并生成多样化的自然语言问题，以测试模型在距离计算、可见性评估、最短路径规划以及室内设计约束（如可达性、间隙、平衡和可用性）等方面的表现。

衍生相关工作

PlanQA的提出推动了多项相关研究，包括LayoutGPT（基于LLMs的视觉规划与布局生成）、SpatialVLM（增强视觉语言模型的空间推理能力）以及3DSRBench（三维空间推理基准）。这些工作进一步扩展了符号化空间推理在生成式AI、具身智能和跨模态任务中的应用边界。

数据集最近研究