Sudoku-Bench

github2025-04-14 更新2025-04-15 收录

下载链接：

https://github.com/SakanaAI/Sudoku-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

Sudoku-Bench 数据集包括三个子集：`challenge_100`、`nikoli_100` 和 `ctc`。`challenge_100` 包含100个数独谜题，旨在评估推理模型的多样性和创造性推理能力。`nikoli_100` 包含100个手工制作的标准数独谜题。`ctc` 包含2565个在CTC频道中出现的谜题。

The Sudoku-Bench dataset includes three subsets: `challenge_100`, `nikoli_100`, and `ctc`. The `challenge_100` subset contains 100 Sudoku puzzles, designed to evaluate the diversity and creative reasoning abilities of reasoning models. The `nikoli_100` subset consists of 100 handcrafted standard Sudoku puzzles. The `ctc` subset includes 2565 puzzles that appeared in the CTC channel.

创建时间：

2025-03-21

原始信息汇总

Sudoku-Bench 数据集概述

数据集简介

Sudoku-Bench 是一个包含多种数独变体的评估基准，专为测试AI推理模型设计。
数据集由 SakanaAI 提供，包含独特的数独变体，旨在激发创造性问题解决能力。

数据集组成

1. Sudoku-Bench 拼图数据集

challenge_100: 100个数独拼图，包括：
- 15个4×4拼图
- 15个6×6拼图
- 50个9×9拼图
- 20个来自 nikoli_100 的较难标准数独拼图
nikoli_100: 100个由日本拼图公司 Nikoli 手工制作的标准数独拼图。
ctc: 2565个来自 Cracking the Cryptic 频道的数独拼图。

2. Cracking the Cryptic (CTC) 推理轨迹

包含数千小时的推理轨迹，包括口头推理转录和从YouTube视频中提取的SudokuPad状态-动作序列。

使用方法

方法1: 纯文本

使用每个拼图的结构化文本表示，便于与LLMs集成。
包含 visual_elements、rules 和 initial_board 字段。

方法2: SudokuPad 应用

使用 SudokuPad 游戏引擎，支持：
- 截图供基于VLM的模型使用
- 人类解题者常用的笔记方法，如候选数字的铅笔标记和单元格的颜色编码。

获取方式

Sudoku-Bench 数据集: SakanaAI/Sudoku-Bench
CTC推理轨迹 数据集: SakanaAI/Sudoku-CTC-Reasoning

合作伙伴

与 Cracking the Cryptic 合作。
感谢 Nikoli 提供 nikoli_100 数据集。

引用

bibtex @misc{seely2025sudoku-bench, title={{Sudoku-Bench}}, author={Seely, Jeffrey and Imajuku, Yuki and Zhao, Tianyu and Cetin, Edoardo and Jones, Llion}, howpublished = {url{https://github.com/SakanaAI/Sudoku-Bench}}, year={2025} }

搜集汇总

数据集介绍

构建方式

Sudoku-Bench数据集通过精心设计的流程构建，涵盖了多种数独变体。其核心子集challenge_100包含由Cracking the Cryptic节目主持人精选的50道9×9难题，以及专为评估推理模型设计的4×4和6×6题目。nikoli_100子集则与日本著名谜题公司Nikoli合作，收录了100道手工制作的标准数独。ctc子集系统整理了2565道来自知名数独频道的题目，确保了数据集的多样性和权威性。

使用方法

研究者可通过两种主要方式使用该数据集：文本模式直接利用结构化文本表示进行语言模型评估；SudokuPad交互模式则支持通过应用程序接口实现更接近人类解题过程的评估。数据集提供了完整的评估代码示例，包括文本表示处理工具和SudokuPad交互模块，支持从基础推理能力测试到复杂多轮交互评估等多种研究场景。

背景与挑战

背景概述

Sudoku-Bench是由SakanaAI团队构建的一个专注于数独变体推理的数据集，其灵感来源于YouTube频道Cracking the Cryptic（CTC）中展示的创新型数独谜题。该数据集旨在为人工智能推理模型提供一个多样化的评估基准，涵盖了从传统数独到具有独特规则集的复杂变体。通过与日本著名谜题公司Nikoli合作，Sudoku-Bench不仅包含了手工制作的经典数独，还整合了CTC频道中数千小时的推理轨迹，为研究逻辑推理和创造性问题解决提供了丰富的资源。

当前挑战

Sudoku-Bench面临的挑战主要体现在两个方面：领域问题的复杂性和数据构建的技术难度。在领域问题方面，该数据集旨在解决数独变体的多规则推理问题，其挑战在于模型需要同时处理视觉元素、规则解析和长程逻辑推理。数据构建过程中，团队需处理来自不同来源的异构数据（如YouTube视频的推理轨迹、Nikoli的手工谜题），并设计统一的表示方法以支持文本和视觉两种交互模式。此外，确保数据版权合规性以及维护谜题设计的多样性也是构建过程中的关键挑战。

常用场景

经典使用场景

在人工智能推理模型的研究中，Sudoku-Bench数据集被广泛应用于评估模型在复杂逻辑推理和创造性问题解决方面的能力。该数据集包含多种数独变体，如4×4、6×6和9×9的谜题，以及来自CTC频道的高难度谜题，为研究者提供了一个多样化的测试平台。通过文本表示或SudokuPad应用程序交互，研究者可以全面评估模型在多轮推理和长上下文推理中的表现。

解决学术问题

Sudoku-Bench数据集解决了人工智能领域中的多个关键学术问题，尤其是在逻辑推理和创造性问题解决方面。通过提供多样化的数独谜题和独特的规则集，该数据集帮助研究者评估模型在处理复杂逻辑关系和长上下文推理时的能力。此外，数据集中的CTC推理痕迹为研究模型的多轮推理和决策过程提供了宝贵的数据支持，推动了人工智能推理模型的进一步发展。

实际应用

在实际应用中，Sudoku-Bench数据集被广泛用于开发和测试各种人工智能推理模型，尤其是在自然语言处理和计算机视觉领域。通过文本表示，研究者可以轻松地将数据集集成到大型语言模型（LLM）的评估流程中。而SudokuPad应用程序的交互方式则为视觉语言模型（VLM）提供了丰富的视觉输入，模拟人类解题过程中的笔记和标记行为，进一步提升了模型的实用性和适应性。

数据集最近研究