puzzle-bench

Hugging Face2026-03-26 更新2026-03-27 收录

下载链接：

https://huggingface.co/datasets/zeyuzy/puzzle-bench

下载链接

链接失效反馈

官方服务：

资源简介：

Puzzle Bench 是一个包含数独和迷宫任务的难度标记评估数据集，旨在比较离散扩散模型与自回归模型的性能。数据集包含两个主要配置：数独和迷宫。数独数据集包含10,000个9x9数独谜题，每个谜题都有求解器计算的难度指标，包括空白单元格数量、求解步骤数、回溯次数、最大递归深度和难度等级（简单、中等、困难）。迷宫数据集包含4,000个迷宫，涵盖4种网格大小，每个迷宫都有随机起点和终点，以及BFS难度指标，包括迷宫编码、起点和终点坐标、网格大小、生成算法、最短路径长度、BFS扩展节点数和难度等级。数据集适用于文本生成任务，支持英语，规模在10K到100K之间，采用MIT许可证。

创建时间：

2026-03-21

原始信息汇总

Puzzle Bench 数据集概述

数据集基本信息

数据集名称: Puzzle Bench
托管地址: https://huggingface.co/datasets/zeyuzy/puzzle-bench
许可证: MIT
任务类别: 文本生成
语言: 英语
数据规模: 10K < n < 100K
标签: 数独、迷宫、谜题、约束满足、扩散模型、基准测试

数据集构成

数据集包含两个独立的配置，分别对应两种谜题类型。

配置一：Sudoku

配置名称: sudoku
样本数量: 10,000 个谜题
谜题类型: 9x9 标准数独
特征列:
- puzzle: 81位数字字符串（0代表空格）
- solution: 81位数字解决方案字符串
- empty_count: 空格数量
- steps_count: 求解器步数（使用MRV + 回溯算法）
- backtrack_count: 回溯次数
- max_depth: 最大递归深度
- difficulty: 难度等级（easy / medium / hard）

难度分布

难度等级	样本数量	步数范围	回溯次数范围
easy	3,333	45-47	0（纯逻辑求解）
medium	3,333	47-753	0-699
hard	3,334	754-663K	698-663K

配置二：Maze

配置名称: maze
样本数量: 4,000 个迷宫
特征列:
- maze: 编码墙壁的二进制字符串
- start: 起点坐标（行,列）
- goal: 终点坐标（行,列）
- grid_size: 网格尺寸（3, 5, 7 或 10）
- algorithm: 生成算法（dfs 或 wilson）
- solution_length: BFS最短路径长度
- bfs_nodes: BFS扩展节点数
- difficulty: 难度等级（easy / medium / hard）

尺寸分布

网格尺寸	样本数量	解决方案长度范围	唯一起点数量
3x3	1,000	3-8	8
5x5	1,000	5-22	24
7x7	1,000	7-41	48
10x10	1,000	10-75	89

数据集目的

该数据集是带有难度标签的评估数据集，专为在数独和迷宫任务上比较离散扩散模型与自回归模型而设计。

相关资源

GitHub项目: https://github.com/zeyuzhangzyz/puzzle-bench

搜集汇总

数据集介绍

构建方式

在离散推理任务的评估框架中，Puzzle Bench数据集的构建体现了系统化的设计理念。数独子集通过算法生成了10,000个标准9x9谜题，每个谜题均采用最小剩余值启发式与回溯求解器进行计算，从而精确量化了空白单元格数量、求解步数、回溯次数及最大递归深度等关键指标，并依据求解步数的三分位数将难度划分为易、中、硬三个等级。迷宫子集则涵盖了4种网格尺寸，总计4,000个实例，通过深度优先搜索或威尔逊算法生成迷宫结构，并基于广度优先搜索计算最短路径长度与扩展节点数，同样按路径长度进行难度分级，确保了数据在尺寸与复杂性上的多样性。

特点

该数据集的核心特征在于其面向离散扩散模型与自回归模型的基准测试需求，提供了难度标签化的评估标准。数独部分不仅包含原始的谜题字符串与标准解，还集成了多维度求解度量，如回溯次数与最大深度，使得研究者能够深入分析模型在约束满足问题上的推理能力。迷宫部分则通过编码的墙结构、随机起点与终点坐标，以及BFS计算的路径长度与节点扩展数，构建了空间导航任务的复杂评估环境。整体而言，数据集兼具结构规范性与度量丰富性，为算法比较提供了可靠且细致的实验基础。

使用方法

在自然语言处理与生成模型的实验设计中，Puzzle Bench数据集可直接用于文本生成任务的性能评估。研究者可通过加载HuggingFace平台上的相应配置，分别访问sudoku与maze子集，利用提供的谜题字符串作为模型输入，并将标准解作为参考输出，以计算生成准确性或路径规划的正确率。数据集中预计算的难度标签与各类度量指标，如步数计数与节点扩展数，可用于分析模型在不同复杂度任务上的表现差异。此外，该数据集支持与自回归及扩散模型的对比实验，助力于推动离散推理领域的方法创新与基准建立。

背景与挑战

背景概述

在人工智能领域，离散扩散模型作为一种新兴的生成范式，其性能评估亟需专门设计的基准数据集。Puzzle Bench数据集应运而生，由研究人员或机构创建，旨在为离散扩散模型与自回归模型在约束满足问题上的比较提供标准化评测平台。该数据集聚焦于数独和迷宫两类经典难题，通过引入精确的难度标注与求解过程度量，为核心研究问题——即模型在结构化推理与长程依赖捕捉上的能力——提供了严谨的分析基础。它的构建推动了生成模型在符号推理任务上的研究进展，为相关领域的算法创新与理论探索注入了新的活力。

当前挑战

该数据集致力于解决约束满足与路径规划等结构化生成任务的评估挑战，其核心在于如何量化生成模型解决组合优化问题的能力。具体而言，数独任务要求模型在严格规则下进行全局逻辑推理，而迷宫任务则需模型具备空间寻径与规划能力。在构建过程中，挑战体现在生成大规模且难度分布均衡的谜题实例，并设计客观的难度度量指标，例如基于求解器的步数、回溯次数或最短路径长度，以确保评估的公正性与可复现性。这些挑战共同指向了在离散输出空间中对生成模型进行可靠、精细化评测的复杂性。

常用场景

经典使用场景

在离散扩散模型与自回归模型的对比研究中，Puzzle-Bench数据集扮演着核心评估工具的角色。该数据集精心构建的数独与迷宫任务，为模型在约束满足问题上的推理能力提供了标准化测试平台。研究者利用其标注的难度等级和求解指标，系统性地评估模型在复杂逻辑推理与路径规划任务中的性能差异，从而推动生成模型在结构化输出领域的理论进展。

实际应用

超越纯学术探索，Puzzle-Bench数据集在人工智能的实际应用场景中展现出重要价值。其数独与迷宫任务可类比于现实中的调度优化、自动化规划与游戏AI开发，例如在物流路径设计或教育益智软件中的智能解题系统。数据集提供的难度分级与求解过程指标，为构建鲁棒且可解释的推理引擎提供了训练与验证数据，助力工业界开发更高效的决策支持工具。

衍生相关工作

围绕Puzzle-Bench数据集，已衍生出一系列经典研究工作。这些工作主要集中于改进离散扩散模型在约束满足任务上的生成质量与速度，例如结合强化学习优化求解策略，或设计混合架构以融合符号推理与神经生成。同时，该数据集也激发了关于模型可解释性与泛化能力的新评估方法，推动了基准测试标准在复杂推理领域的演进与完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集