ArrangementPuzzle
收藏arXiv2025-03-22 更新2025-03-26 收录
下载链接:
https://github.com/Solid-Energy-Systems/arrangement_puzzle
下载链接
链接失效反馈官方服务:
资源简介:
ArrangementPuzzle是一个由SES AI创建的定制化逻辑谜题数据集,适用于分析LLM内部推理表示。数据集包含独特的线索和解决方案,保证每个谜题有唯一解,不含冗余线索。数据集通过随机化名称、颜色和解决方案来保证多样性。研究通过此数据集训练分类器,以区分正确的推理步骤和错误的推理步骤,发现LLM在中间至后期的Transformer层中具有最强的推理正确性表示。
ArrangementPuzzle is a custom logic puzzle dataset created by SES AI, designed for analyzing the internal reasoning representations of Large Language Models (LLMs). The dataset includes unique clues and solutions, guaranteeing that each puzzle has a single valid solution with no redundant clues. It achieves diversity by randomizing names, colors and solutions. Using this dataset, researchers train classifiers to distinguish between correct and erroneous reasoning steps, and find that LLMs exhibit the strongest reasoning correctness representations in the middle-to-late Transformer layers.
提供机构:
SES AI
创建时间:
2025-03-22
搜集汇总
数据集介绍

构建方式
ArrangementPuzzle数据集通过结构化逻辑谜题构建,每个谜题包含若干线索,描述人物的排列方式和衣着颜色。数据集采用自动化解决方案生成器,确保每个谜题具有唯一解且无冗余线索。通过随机化人名、颜色及排列组合,生成多样化谜题实例。此外,数据集利用正则表达式解析器从LLM输出中提取推理陈述,并与真实解对比标记正确性,形成带有标签的模型激活数据集。
特点
该数据集的核心特点在于其模块化设计和自动化验证机制。谜题通过约束传播算法生成,保证逻辑唯一性,同时支持语句级而非解决方案级的准确性检验。数据集包含10,000个双人排列谜题,并采用同构谜题检测机制,确保验证集和测试集包含逻辑结构完全不同的谜题。特别值得注意的是,数据集捕获了LLM在中间层注意力机制中对正确与错误推理步骤的差异化表征,为理解模型内部推理机制提供了独特视角。
使用方法
使用该数据集时,研究者可通过GitHub仓库获取谜题生成器和激活分类器代码。典型流程包括:加载预生成谜题输入LLM,记录模型各层的激活状态;利用配套解析器提取推理陈述并验证正确性;最终训练卷积神经网络分类器预测推理步骤准确性。数据集特别适用于探究Transformer中间层的抽象推理表征,通过对比同构谜题的激活模式差异,可量化分析模型对逻辑等价与语义等价的区分能力。
背景与挑战
背景概述
ArrangementPuzzle数据集由Adam Atanas和Kai Liu等研究人员于2024年推出,旨在探究大型语言模型(LLMs)在推理任务中的内部表征机制。该数据集通过结构化谜题生成与自动化分步验证,为研究LLMs的抽象推理能力提供了新颖的实验平台。其核心价值在于揭示了Transformer架构中后期层对正确/错误推理步骤的区分能力,以及逻辑等价与语义等价的抽象表征差异,为提升AI可靠性和可解释性提供了重要依据。该研究由SES AI团队主导,通过10,000个定制化排列谜题,首次证实了LLMs存在与人类相似的内部推理监控机制。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决LLMs存在的幻觉推理与逻辑缺陷问题,其分步验证机制虽能检测67.6%的推理错误,但难以应对开放域复杂推理任务;在构建技术层面,需平衡谜题生成器的确定性约束(保证唯一解且无冗余线索)与LLMs输出的随机性,同时通过同构谜题设计防止模型记忆特定模式。此外,正则表达式解析器对LLM输出语句的精确匹配要求,以及4096维隐藏状态的特征提取复杂度,均为数据集构建带来显著技术难度。
常用场景
经典使用场景
ArrangementPuzzle数据集在探究大型语言模型(LLMs)内部推理表征方面具有独特价值。该数据集通过结构化谜题设计,结合自动化分步验证机制,为研究者提供了分析LLM在逻辑推理过程中激活模式的标准化工具。其典型应用场景包括训练基于LLM激活的分类器模型,用以预测推理步骤的正确性,并揭示Transformer中间层对抽象推理概念的编码规律。
衍生相关工作
基于该数据集的研究催生了多个重要方向:Azaria等学者扩展了内部真实性表征的研究框架;DeepSeek-R1团队借鉴其同构测试方法优化了强化学习策略;Jiang等人则通过激活分析揭示了LLM的标记偏差现象。这些工作共同推动了可解释AI领域对神经符号整合的探索。
数据集最近研究
最新研究方向
近年来,ArrangementPuzzle数据集在探索大型语言模型(LLMs)内部推理机制方面取得了显著进展。该数据集通过结构化谜题和自动化逐步验证机制,揭示了LLMs在中间至后期Transformer层中编码了推理正确性的抽象表征。研究表明,LLMs能够区分逻辑等价与语义等价,这一发现为理解模型的内在推理过程提供了新视角。随着可解释人工智能(Explainable AI)领域的快速发展,ArrangementPuzzle为检测和预防LLMs的幻觉及逻辑错误提供了重要工具,同时也为提升模型可靠性和可解释性开辟了新途径。
相关研究论文
- 1A Modular Dataset to Demonstrate LLM Abstraction CapabilitySES AI · 2025年
以上内容由遇见数据集搜集并总结生成



