SPaRC

Name: SPaRC
Creator: 哥廷根大学
Published: 2025-05-22 21:53:50
License: 暂无描述

arXiv2025-05-22 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/lkaesberg/SPaRC

下载链接

链接失效反馈

官方服务：

资源简介：

SPaRC数据集由哥廷根大学的研究团队创建，旨在评估模型在解决抽象、多步骤问题，特别是路径查找和复杂规则约束满足方面的空间和符号推理能力。数据集包含1000个2D网格路径查找谜题，要求使用算术和几何规则进行逐步规划。人类在解决这些谜题时表现出近乎完美的准确性（98.0%），而最佳推理模型（如o4-mini）在解决难题时准确率仅为1.1%。数据集揭示了模型在导航和空间逻辑方面的错误，并提出了改进模型空间推理能力的潜在方法。

提供机构：

哥廷根大学

创建时间：

2025-05-22

搜集汇总

数据集介绍

构建方式

SPaRC数据集的构建过程采用了系统化的生成-验证循环机制。研究团队首先随机生成x×y网格（x和y范围为2-6），并以50%的密度随机填充规则单元格。通过暴力搜索算法验证每个初始谜题的可解性，若解空间过大则增加规则密度，反之则降低密度重新生成。最终构建的1000个谜题包含500个训练样本和500个测试样本，涵盖7种核心规则类型（间隙、点、石块、星星等）及其组合，并通过加权算法将谜题难度标准化为1-5级。这种双重验证机制确保了数据集的多样性和复杂性。

使用方法

使用SPaRC数据集时，建议采用三阶段评估流程：首先通过标准文本提示测试模型的基础空间推理能力，记录路径有效性及规则遵守情况；其次针对特定规则子集（如仅含多边形的谜题）进行细粒度错误分析，识别模型在符号逻辑或几何认知方面的薄弱环节；最后可启用多尝试模式（pass@k），通过生成多个候选解来探索模型在增加计算资源时的性能提升空间。数据集提供标准化坐标输出格式，并支持视觉模态输入以测试多模态推理能力。

背景与挑战

背景概述

SPaRC（Spatial Pathfinding Reasoning Challenge）是由德国哥廷根大学的Lars Benedikt Kaesberg、Jan Philip Wahle、Terry Ruas和Bela Gipp等研究人员于2025年提出的一个新颖的二维网格路径规划推理数据集。该数据集包含1000个精心设计的谜题，旨在评估模型在空间导航、符号推理、约束满足和多步规划等方面的综合能力。SPaRC的创建灵感来源于电子游戏《The Witness》的谜题机制，通过融合算术和几何规则，为抽象推理研究提供了新的基准测试平台。与人类在简单谜题上98%的准确率相比，当前最先进的推理模型如o4-mini仅能达到15.8%的准确率，这突显了该数据集在推动复杂推理研究方面的重要价值。

当前挑战

SPaRC数据集主要面临两方面的挑战：领域问题挑战和构建过程挑战。在领域问题方面，该数据集旨在解决现有推理基准在测试抽象多步问题（特别是路径规划和复杂规则约束满足）时的饱和问题。具体挑战包括：1）模型在空间逻辑和导航方面存在显著缺陷，超过50%的生成路径无效；2）随着谜题难度增加，模型性能急剧下降，在最高难度级别准确率仅为1.1%。在构建过程方面，挑战包括：1）确保谜题的可解性和难度平衡，需要通过暴力搜索进行验证；2）设计合理的难度评估指标，综合考虑规则数量、网格大小和规则交互复杂度；3）处理不同规则组合带来的复杂性，特别是多规则交互时的约束满足问题。

常用场景

经典使用场景

SPaRC数据集专为评估空间与符号推理能力而设计，其经典使用场景集中在二维网格路径规划谜题的求解上。研究者通过该数据集测试模型在复杂规则约束下的多步规划能力，例如在包含算术与几何规则的环境中寻找从起点到终点的有效路径。数据集模拟了《见证者》游戏的机制，要求模型处理点收集、颜色分离、形状匹配等多样化规则组合，为抽象推理研究提供了标准化测试平台。

解决学术问题

该数据集有效解决了当前推理基准中存在的两大核心问题：一是传统数据集因模式匹配导致性能饱和，难以评估真正的抽象推理能力；二是现有空间推理任务往往孤立测试单一技能，缺乏对路径规划、规则组合等综合能力的考察。SPaRC通过设计1000个难度递进的谜题，系统化揭示了模型在空间逻辑、约束满足和长期规划方面的局限性，为改进推理架构提供了明确方向。

实际应用

在实际应用中，SPaRC数据集的能力评估框架可直接迁移至机器人路径规划、自动化设计验证等工业场景。其规则系统模拟了现实世界中常见的空间约束条件（如障碍规避、区域分割），对开发具备复杂环境适应能力的自动驾驶算法具有启发意义。教育科技领域也可借鉴其渐进式难度设计，构建适应性认知训练系统。

数据集最近研究