PuzzleClone

Name: PuzzleClone
Creator: HiThink Research, 香港科技大学
Published: 2025-08-21 10:36:16
License: 暂无描述

arXiv2025-08-21 更新2025-11-25 收录

下载链接：

https://github.com/puzzleClone/PuzzleCloneData

下载链接

链接失效反馈

官方服务：

资源简介：

PuzzleClone是一个由HiThink Research和香港科技大学共同创建的高质量数学和逻辑数据集，包含超过83,657个经过验证的谜题，用于加强大型语言模型（LLMs）的推理能力。该数据集采用Satisfiability Modulo Theories (SMT)技术生成，每个谜题都经过编码、生成和验证三个阶段。数据集涵盖了广泛的难度和格式，为当前最先进的模型提出了重大挑战。通过PuzzleClone训练，可以提高模型在逻辑和数学基准测试中的表现，从而解决大型语言模型在逻辑推理方面的挑战。

提供机构：

HiThink Research, 香港科技大学

创建时间：

2025-08-21

搜集汇总

数据集介绍

构建方式

在逻辑推理数据集构建领域，PuzzleClone采用可满足性模理论（SMT）驱动的框架实现可验证数据的规模化合成。该框架通过三阶段流程实现数据构建：首先将种子谜题人工编码为结构化逻辑规范，定义变量、符号和约束条件；随后利用随机化策略系统生成变量组合与约束配置，通过Z3求解器程序化推导真值答案；最终通过复现机制验证种子谜题与生成实例的逻辑一致性，确保83,657个谜题实例均经过去重处理和难度分层。

使用方法

研究者可通过分层划分的4,300条SFT样本与74,354条RL训练样本开展模型微调，其中难度分层的测试集支持对模型逻辑推理能力的细粒度评估。使用时应结合定制化提示模板将自然语言问题转化为形式化推理任务，利用内置评估算子支持数值、选项等多元答案格式的自动化评测。该数据集尤其适用于验证SMT驱动训练对数学推理任务的迁移效果，如在AMC2023等基准上观察到的12.5%绝对性能提升。

背景与挑战

背景概述

PuzzleClone数据集由HiThink Research与香港科技大学于2025年联合推出，旨在解决大语言模型在逻辑推理能力训练中面临的高质量数据稀缺问题。该数据集聚焦于可满足性模理论（SMT）这一NP完全问题类，通过结构化逻辑规范编码与程序化验证机制，构建了包含8.3万道多样化数学逻辑谜题的基准。其创新性框架将种子谜题转化为可随机化参数的领域专用语言描述，结合Z3求解器实现答案的自动验证，显著提升了数据生成的可靠性与扩展性，为复杂推理任务的模型训练提供了重要支撑。

当前挑战

在逻辑推理领域，传统数据增强方法常受限于生成内容的可靠性与多样性，而PuzzleClone通过形式化方法直面这一核心挑战。其构建过程需克服多重困难：首先，在领域问题层面，需确保生成的SMT谜题在约束随机化后仍保持语义一致性与解题复杂性；其次，技术实现中需精确设计变量域与动态约束模板，避免因参数组合爆炸导致无解实例。此外，验证环节依赖人工编码与符号求解器的协同，对种子谜题的逻辑还原精度提出极高要求，而难度评估指标与去重机制也需应对非线性复杂度关系的量化难题。

常用场景

经典使用场景

在逻辑推理与数学问题求解领域，PuzzleClone数据集通过可满足性模理论（SMT）框架系统生成可验证的多样化谜题，其经典应用场景集中于增强大语言模型的演绎与归纳推理能力。该数据集通过结构化编码种子谜题、随机化变量与约束条件，并利用Z3求解器程序化验证答案，构建了涵盖数万道难度递进的逻辑谜题集合。此类数据被广泛用于模型微调与强化学习阶段，通过暴露模型于复杂约束环境，显著提升其处理组合优化与符号推理任务的鲁棒性。

解决学术问题

PuzzleClone有效解决了当前生成式数据集中普遍存在的可靠性不足、多样性受限与扩展性薄弱三大核心问题。通过引入形式化验证机制与领域专用语言，该数据集确保了生成谜题在逻辑一致性与答案正确性上的严格保障，同时突破了传统方法对人工标注的高度依赖。其创新性框架为符号推理与神经符号集成研究提供了可扩展的数据基础，推动了可信数据合成范式的演进，并在逻辑完备性验证与程序化数据生成交叉领域树立了新的技术标准。

实际应用

该数据集的实际价值体现在智能教育系统与自动化推理引擎的构建中。教育科技领域可借助其生成的差异化谜题实现自适应学习路径规划，为不同认知水平的学习者提供精准的逻辑训练素材。工业界则将其应用于验证系统规约与合同条款的逻辑一致性，通过将业务规则编码为SMT约束自动检测潜在矛盾。此外，在金融风控与法律文书分析场景中，该类数据支撑的模型能够识别复杂规则下的隐含逻辑冲突，提升决策支持系统的可靠性。

数据集最近研究