SPaRC
收藏arXiv2025-05-22 更新2025-05-28 收录
下载链接:
https://huggingface.co/datasets/lkaesberg/SPaRC
下载链接
链接失效反馈官方服务:
资源简介:
SPaRC数据集由哥廷根大学的研究团队创建,旨在评估模型在解决抽象、多步骤问题,特别是路径查找和复杂规则约束满足方面的空间和符号推理能力。数据集包含1000个2D网格路径查找谜题,要求使用算术和几何规则进行逐步规划。人类在解决这些谜题时表现出近乎完美的准确性(98.0%),而最佳推理模型(如o4-mini)在解决难题时准确率仅为1.1%。数据集揭示了模型在导航和空间逻辑方面的错误,并提出了改进模型空间推理能力的潜在方法。
提供机构:
哥廷根大学
创建时间:
2025-05-22
搜集汇总
数据集介绍

构建方式
SPaRC数据集的构建过程采用了系统化的生成-验证循环机制。研究团队首先随机生成x×y网格(x和y范围为2-6),并以50%的密度随机填充规则单元格。通过暴力搜索算法验证每个初始谜题的可解性,若解空间过大则增加规则密度,反之则降低密度重新生成。最终构建的1000个谜题包含500个训练样本和500个测试样本,涵盖7种核心规则类型(间隙、点、石块、星星等)及其组合,并通过加权算法将谜题难度标准化为1-5级。这种双重验证机制确保了数据集的多样性和复杂性。
使用方法
使用SPaRC数据集时,建议采用三阶段评估流程:首先通过标准文本提示测试模型的基础空间推理能力,记录路径有效性及规则遵守情况;其次针对特定规则子集(如仅含多边形的谜题)进行细粒度错误分析,识别模型在符号逻辑或几何认知方面的薄弱环节;最后可启用多尝试模式(pass@k),通过生成多个候选解来探索模型在增加计算资源时的性能提升空间。数据集提供标准化坐标输出格式,并支持视觉模态输入以测试多模态推理能力。
背景与挑战
背景概述
SPaRC(Spatial Pathfinding Reasoning Challenge)是由德国哥廷根大学的Lars Benedikt Kaesberg、Jan Philip Wahle、Terry Ruas和Bela Gipp等研究人员于2025年提出的一个新颖的二维网格路径规划推理数据集。该数据集包含1000个精心设计的谜题,旨在评估模型在空间导航、符号推理、约束满足和多步规划等方面的综合能力。SPaRC的创建灵感来源于电子游戏《The Witness》的谜题机制,通过融合算术和几何规则,为抽象推理研究提供了新的基准测试平台。与人类在简单谜题上98%的准确率相比,当前最先进的推理模型如o4-mini仅能达到15.8%的准确率,这突显了该数据集在推动复杂推理研究方面的重要价值。
当前挑战
SPaRC数据集主要面临两方面的挑战:领域问题挑战和构建过程挑战。在领域问题方面,该数据集旨在解决现有推理基准在测试抽象多步问题(特别是路径规划和复杂规则约束满足)时的饱和问题。具体挑战包括:1)模型在空间逻辑和导航方面存在显著缺陷,超过50%的生成路径无效;2)随着谜题难度增加,模型性能急剧下降,在最高难度级别准确率仅为1.1%。在构建过程方面,挑战包括:1)确保谜题的可解性和难度平衡,需要通过暴力搜索进行验证;2)设计合理的难度评估指标,综合考虑规则数量、网格大小和规则交互复杂度;3)处理不同规则组合带来的复杂性,特别是多规则交互时的约束满足问题。
常用场景
经典使用场景
SPaRC数据集专为评估空间与符号推理能力而设计,其经典使用场景集中在二维网格路径规划谜题的求解上。研究者通过该数据集测试模型在复杂规则约束下的多步规划能力,例如在包含算术与几何规则的环境中寻找从起点到终点的有效路径。数据集模拟了《见证者》游戏的机制,要求模型处理点收集、颜色分离、形状匹配等多样化规则组合,为抽象推理研究提供了标准化测试平台。
解决学术问题
该数据集有效解决了当前推理基准中存在的两大核心问题:一是传统数据集因模式匹配导致性能饱和,难以评估真正的抽象推理能力;二是现有空间推理任务往往孤立测试单一技能,缺乏对路径规划、规则组合等综合能力的考察。SPaRC通过设计1000个难度递进的谜题,系统化揭示了模型在空间逻辑、约束满足和长期规划方面的局限性,为改进推理架构提供了明确方向。
实际应用
在实际应用中,SPaRC数据集的能力评估框架可直接迁移至机器人路径规划、自动化设计验证等工业场景。其规则系统模拟了现实世界中常见的空间约束条件(如障碍规避、区域分割),对开发具备复杂环境适应能力的自动驾驶算法具有启发意义。教育科技领域也可借鉴其渐进式难度设计,构建适应性认知训练系统。
数据集最近研究
最新研究方向
近年来,SPaRC数据集在人工智能领域的空间路径规划与符号推理研究中引起了广泛关注。该数据集通过设计复杂的二维网格路径规划谜题,有效评估了模型在空间导航、多步规划和规则约束满足方面的能力。当前研究热点集中在探索大型语言模型(LLMs)在抽象推理任务中的局限性,尤其是模型在处理几何规则组合和长期规划时的表现。与人类近乎完美的准确率(98%)相比,即使是性能最佳的推理模型(如o4-mini)在困难谜题上的准确率仅为1.1%,这一差距凸显了现有模型在空间逻辑和符号操作方面的不足。近期研究进一步揭示了模型在路径生成中的常见错误类型,如规则单元穿越和逻辑谬误,同时发现通过增加测试时计算量(如多次尝试)可以部分提升模型性能。这些发现为开发更高效的训练方法和测试时扩展策略提供了重要方向。
相关研究论文
- 1SPaRC: A Spatial Pathfinding Reasoning Challenge哥廷根大学 · 2025年
以上内容由遇见数据集搜集并总结生成



