anon-lab/SudokuJustify
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/anon-lab/SudokuJustify
下载链接
链接失效反馈官方服务:
资源简介:
SudokuJustify是一个用于评估模型是否能够为简单的数独推理生成逐步、机器可验证的证明的基准数据集。每个实例包含一个9x9的数独谜题、其完整解决方案以及使用受限规则集(naked_single和hidden_single)的规范符号跟踪。该数据集设计用于评估和分析,而非训练。受限规则集确保每个声称的步骤都能自动验证。数据集包含四个版本(v1、v2、v3和v1_balanced_attribution),每个版本具有特定的用途和结构。数据集是合成的,通过程序生成,并具有局限性,如仅涵盖9x9数独和狭窄的规则集。
SudokuJustify is a benchmark for evaluating whether a model can produce stepwise, machine-checkable justifications for simple Sudoku reasoning. Each instance contains a 9x9 puzzle, its full solution, and a canonical symbolic trace using a restricted rule set (naked_single and hidden_single). The benchmark is designed for evaluation and analysis rather than training. The restricted rule set keeps every claimed step easy to verify automatically. The dataset contains four splits (v1, v2, v3, and v1_balanced_attribution), each with specific purposes and schemas. The dataset is synthetic, generated programmatically, and has limitations such as a narrow rule set and coverage only of 9x9 Sudoku.
提供机构:
anon-lab
搜集汇总
数据集介绍

构建方式
SudokuJustify数据集通过受约束的符号化管道程序化生成。每个实例包含一个9x9数独谜题及其完整解答,并附带一份基于有限规则集(裸单数与隐单数)的规范化符号推理轨迹。生成过程使用随机种子控制谜题难度,并通过筛选确保每一步推理均可自动验证。数据集包含多个配置版本,其中v1、v2、v3为主评估集,v1_balanced_attribution则从v1中采样中间棋盘状态,用于归因与对照实验。每个记录均包含谜题网格、解答网格、规范化步骤序列及难度签名等字段。
使用方法
数据集主要用于评估与归因分析,而非训练。用户可加载各配置下的JSONL文件,利用记录中的规范轨迹与棋盘状态,测试模型生成推理步骤的准确性。平衡归因子集适用于控制实验,通过比较模型在裸单数与隐单数条件下的表现,探究其推理偏好。使用时需注意数据集为符号管道生成的合成数据,其分布与人类解题方式存在差异,因此结论应局限在有限规则集下的逐步推理能力范畴。
背景与挑战
背景概述
SudokuJustify是由研究人员于近期构建的合成基准数据集,旨在评估语言模型在简单数独推理任务中生成可机器检验的逐步验证过程的能力。该数据集由多个版本(v1、v2、v3)及一个平衡归因探针集组成,每个样本包含一个9x9数独谜题、完整解以及基于受限规则集(裸单数和隐单数)的规范符号迹。通过将推理步骤限定在这两种易自动验证的技术上,数据集为分析模型在结构化、约束空间内的推理与解释能力提供了可控测试环境,对理解神经符号推理与人机协作中的可解释性具有重要意义。
当前挑战
该数据集所应对的核心领域挑战在于,当前语言模型虽能生成看似合理的推理链条,却难以确保每一步均精确匹配棋盘状态约束,且缺乏自动验证机制。具体挑战包括:一是复杂推理任务中模型易产生幻觉或逻辑断层,而SudokuJustify通过受限规则集迫使模型输出严格可验证的解释;二是构建过程中需要设计程序化生成管道,从海量谜题中筛选出保证仅使用裸单数和隐单数即可求解的样本,并平衡不同技术类型的出现频率以避免数据偏差;三是平衡归因探针的创建需要精确控制中间棋盘状态与正确归因标签,以支持归因实验与消融分析。
常用场景
经典使用场景
在人工智能逐步向可解释推理迈进的时代,SudokuJustify作为一项专注于演绎推理步骤验证的评测基准,其核心应用在于评估大语言模型是否能生成逐步且可机检的逻辑推理链条。该数据集中的每个样例均包含一个完整的9x9数独谜题及其详尽解法,并要求模型基于受限规则集——裸单数(naked_single)与隐单数(hidden_single)——生成合法的推理步骤。这种精巧的设计使得研究者能够精确地考察模型在结构化推理任务中是否真正理解了状态约束,并作出符合逻辑的逐步决策。
解决学术问题
长久以来,学术界对模型推理能力的评估多依赖于最终答案的正确性,鲜少触及推理过程的严谨性与可解释性。SudokuJustify的提出解决了这一关键缺口,它首次以机器可检出的方式,系统性地衡量模型在推理过程中是否严格遵循了状态空间内的合法约束。通过限定仅使用两种简单但完备的推理技巧,该数据集排除了复杂策略带来的混淆,使得对模型逻辑一致性、步骤合理性以及归因准确性的剖析成为可能,从而推动了可解释人工智能与符号推理交叉领域的研究迈向更清晰、更可量化的阶段。
实际应用
在实践层面,SudokuJustify为构建具备真实可验证推理能力的智能系统提供了重要的验证工具。开发者可以借助该基准,评估和迭代那些目标在于通过逻辑推演解决约束满足问题的模型,例如用于教学辅导的数学推理引擎、自动化流程验证系统或是需要严格合规性检查的决策支持系统。尽管场景限定于数独,但其核心机制——检查每一步推理是否满足当前状态下的唯一合法选择——在诸如计划生成、代码调试与形式化验证等广泛工业应用中具有直接的启发意义。
数据集最近研究
最新研究方向
SudokuJustify作为一项新兴的推理验证基准,正引领着大语言模型在结构化推理与可解释性领域的前沿探索。该数据集通过约束于'naked_single'和'hidden_single'两种规则,构建了从谜题到完整解的规范化符号轨迹,为评估模型生成步骤级、机器可检查的推理依据提供了标准化平台。近期研究热点聚焦于利用该基准剖析模型在有限规则集下的逻辑一致性,通过平衡归属切分(如v1_balanced_attribution)控制实验,探究模型决策对标签偏差的敏感性。这一方向深刻关联着AI对齐与可信赖计算的热点事件,其意义在于推动推理系统从黑箱输出迈向可验证的透明化路径,尤其在自动化数学证明与程序合成领域,为构建具有严谨逻辑链的智能体奠定了评估基础。
以上内容由遇见数据集搜集并总结生成



