DecompSR
收藏arXiv2025-11-04 更新2025-11-19 收录
下载链接:
https://anonymous.4open.science/r/DecompSR-78E2/README.md
下载链接
链接失效反馈官方服务:
资源简介:
DecompSR是一个用于分解分析组合多跳空间推理能力的大型基准数据集,包含超过500万个数据点。该数据集由英国艾伦·图灵研究所创建,旨在通过自然语言空间推理任务,系统地评估语言模型的组合推理能力。DecompSR允许用户独立地改变组合性中的多个方面,包括推理深度、实体和语言的可变性、过度泛化以及系统性。数据集的构建过程是程序性的,确保了数据集的正确性。该数据集广泛应用于大型语言模型(LLMs)的基准测试,揭示了LLMs在空间推理任务中生产性和系统性泛化的不足。
DecompSR is a large-scale benchmark dataset for decompositional analysis of compositional multi-hop spatial reasoning capabilities, containing over 5 million data points. Developed by the Alan Turing Institute in the United Kingdom, this dataset aims to systematically evaluate the compositional reasoning abilities of language models through natural language spatial reasoning tasks. DecompSR allows users to independently adjust multiple aspects of compositionality, including reasoning depth, variability of entities and language, overgeneralization, and systematicity. The dataset is procedurally constructed, ensuring its correctness. Widely employed in benchmarking large language models (LLMs), this dataset has revealed the deficiencies of LLMs in productive and systematic generalization for spatial reasoning tasks.
提供机构:
英国艾伦·图灵研究所
创建时间:
2025-11-04
搜集汇总
数据集介绍

构建方式
在空间推理研究领域,DecompSR采用程序化生成方法构建大规模基准数据集。通过在二维网格上执行随机游走生成无环路径,确保每个数据点的推理深度k精确对应最小推理步数。每个空间关系语句通过多样化自然语言模板生成,并利用符号求解器进行逻辑验证,保证数据构造的严谨性与正确性。
特点
该数据集具备多维可调控特性,支持对组合推理能力的精细评估。其核心特征体现在可独立操控的五大参数维度:推理深度控制逻辑链条复杂度,语言变体涵盖多语种及虚构词汇,实体表征支持符号化与自然命名,干扰信息测试抗噪能力,叙述顺序验证结构鲁棒性。这种模块化设计为系统性评估模型组合推理能力提供了理想实验平台。
使用方法
研究实践中,DecompSR支持零样本与少样本评估范式,通过精心设计的提示模板激发模型潜在推理能力。用户可通过调整参数组合创建定制化测试环境,例如固定实体名称测试语言替代性,或递增推理步长评估生产力边界。配套的符号求解器可验证输出正确性,为模型能力诊断提供可靠参照基准。
背景与挑战
背景概述
DecompSR数据集由艾伦·图灵研究所的Lachlan McPheat等研究人员于2024年创建,旨在解决大语言模型在组合式多跳空间推理能力评估中的关键问题。该数据集通过构建超过500万个数据点的大规模基准测试框架,聚焦于分析模型对空间关系组合规则的系统性泛化能力。其创新性在于采用程序化生成方法确保数据构造正确性,并引入符号求解器进行独立验证,为认知科学和人工智能领域提供了首个能够独立调控组合性多个维度的标准化评估工具。
当前挑战
在领域问题层面,DecompSR致力于攻克大语言模型在组合推理中的系统性缺陷,特别是面对新颖组合情境时规则应用的脆弱性。构建过程中面临双重挑战:一是需要设计能够精确控制推理深度、语言变异性和信息结构的生成算法,确保每个参数独立变化时不破坏逻辑一致性;二是必须建立可靠的验证机制,通过答案集编程实现自然语言问题到形式化表达的无损转换,以消除数据本身的不确定性对评估结果的影响。
常用场景
经典使用场景
在空间推理研究领域,DecompSR数据集被广泛应用于评估大语言模型的多跳组合推理能力。该数据集通过精心设计的生成框架,能够独立控制推理深度、语言变异、实体表示等多个组合性维度,为研究者提供了深入分析模型在复杂空间关系理解中表现的工具。其最经典的使用场景是在零样本或少样本设置下,系统性地测试模型对空间关系的组合性泛化能力,特别是在面对新颖的语言元素和复杂推理链条时的表现。
衍生相关工作
基于DecompSR数据集的创新性设计理念,衍生出了一系列重要的相关研究工作。这些研究进一步扩展了组合性评估的范畴,包括在数学推理、逻辑推理等领域的类似评估框架构建。同时,该数据集启发了对模型内部推理机制更深入的分析,促进了符号推理与神经网络结合的新方法探索,为理解大语言模型的组合性泛化能力提供了新的研究范式。
数据集最近研究
最新研究方向
在空间推理领域,DecompSR数据集正推动对大型语言模型组合推理能力的精细化评估研究。前沿探索聚焦于模型在生产力维度上的表现,即随着推理步数增加,模型维持链式逻辑推断的稳健性;同时关注系统化泛化能力,测试模型对新颖符号与规则的结构化理解。热点事件包括利用该数据集揭示主流模型在深层空间推理中的脆弱性,尤其在面对干扰信息与无序输入时的过泛化倾向。这一研究趋势深刻影响了人工智能可信推理的发展,为构建具备人类级组合思维能力的下一代模型提供了关键诊断工具与理论基石。
相关研究论文
- 1通过英国艾伦·图灵研究所 · 2025年
以上内容由遇见数据集搜集并总结生成



