Z3-Verified-Reasoning-Graphs

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/nagygabor/Z3-Verified-Reasoning-Graphs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'Z3-Verified MCTS Reasoning Graphs (5k Baseline)'，是一个包含5,000行数据的高质量基准数据集，专为训练大型语言模型（如Llama-3、Mistral、Qwen）在蒙特卡洛树搜索（MCTS）风格的回溯、冲突解决和约束满足方面的能力而设计。数据集中的所有图、色数和解决方案均经过Microsoft Z3定理证明器的数学验证，确保零标签噪声。数据内容涵盖高度多样化的确定性图着色任务，图规模从8个节点到120个节点和1,600多条边不等。数据集通过随机排列节点索引和重新标记颜色进行增强，防止模型简单记忆模式。数据集包含五种任务类型：全图着色（50%）、验证（20%）、缺失颜色（15%）、冲突解决（10%）和精确色数确定（5%）。每个数据条目采用JSON格式，包含任务类型、图类型、难度、节点和边数、指令、推理步骤和解决方案等字段。数据集还提供了详细的分布统计和计算经济学分析，适合用于训练具有O1级推理能力的模型。

创建时间：

2026-03-28

原始信息汇总

Z3-Verified MCTS Reasoning Graphs (5k Baseline) 数据集概述

数据集基本信息

语言: 英语 (en)
许可证: Apache-2.0
任务类别: 文本生成 (text-generation)
标签: 推理 (reasoning)、数学 (math)、合成数据 (synthetic)、优化 (optimization)、Z3、回溯 (backtracking)、系统2 (system-2)
规模类别: 1K<n<10K

概述

该数据集提供了一个包含5,000行的生产就绪基线数据集，专注于高度多样化、确定性的、经过Z3定理证明器验证的图着色任务。其设计目标是专门训练大型语言模型（如Llama-3, Mistral, Qwen）进行蒙特卡洛树搜索风格的回溯、冲突解决和约束满足，以模仿O1级别的推理能力。

核心特性

零标签噪声（Z3验证）: 每个图、色数和解决方案均经过Microsoft Z3定理证明器的数学验证。数据集中不存在任何LLM幻觉。
信息密集的推理轨迹: reasoning字段是严格的、程序化的JSON轨迹，展示了贪心启发式搜索、禁用颜色以及在检测到下游冲突时的显式[backtrack]信号，没有闲聊式的叙述。
高复杂度: 图的规模从8个节点扩展到最多120个节点和1600条以上的边。
排列增强: 节点索引被随机打乱，颜色被重新标记，以防止“模式记忆”，迫使模型学习算法而非数据集。

数据集分析

任务分布

强调（50%）全图着色任务以建立核心算法路径。
辅以验证和冲突解决任务以强制执行严格的约束满足。

拓扑结构与难度

图在随机、二分、树和近团结构中均匀分布。
动态分层为简单、中等和困难等级，以确保渐进的学习曲线。

复杂度缩放

边密度随节点数量非线性增长（最多120个节点和1600条以上边），迫使模型进行深度状态空间探索。

信息密度

轨迹长度根据问题复杂度自然变化，产生高度压缩、令牌高效的JSON推理步骤。

计算与训练经济性（令牌统计）

使用标准的cl100k_base（o1/GPT-4）分词器进行分析。

数据集指标	5k数据集	20k数据集	100k数据集
数据集总令牌数	~4205万	~2.1亿	~8.4亿
平均每行令牌数	8,410	8,410	8,410
所需最大上下文	50,014（需要>64k上下文模型）	50,000 - 65,000	50,000 - 65,000

多任务泛化

数据集在5种不同的任务类型间保持平衡以防止对单一提示的过拟合：

全图着色 (50%): 带有贪心回溯轨迹的标准着色。
验证 (20%): 模型接收一个着色方案（50%有效，50%故意损坏），必须找出边冲突。
缺失颜色 (15%): 根据邻居节点推断单个未着色节点的有效颜色。
冲突解决 (10%): 模型获得一个恰好存在一个边冲突的图，必须识别并修复它。
精确色数 (5%): 确定所需颜色的绝对最小数量（Z3计算得出）。

数据结构

JSON字段	描述
`task_type`	具体任务类型（例如`task_a_coloring`, `task_b_validation`）。
`graph_type`	拓扑类型，包括`bipartite`, `tree`, `random`, `near_clique`。
`difficulty`	基于边密度和色数启发式计算的难度（`easy`, `medium`, `hard`）。
`nodes` & `edges`	图大小的整数计数。
`instruction`	给LLM的提示。
`reasoning`	逐步的状态空间搜索和回溯日志。
`solution`	最终经过验证的正确答案。

单行数据示例

json { "task_type": "task_a_coloring", "graph_type": "bipartite", "difficulty": "medium", "nodes": 97, "edges": 1613, "instruction": "Graph with 97 nodes. Edges: [(66, 24), (66, 13)... Color the graph using at most 3 colors so no adjacent nodes share a color. Provide the strategy and reasoning steps.", "reasoning": "{"strategy": "greedy_backtracking", "heuristics": ["highest_degree_first", "smallest_available_color"], "steps": [{"node": 92, "assigned_color": 1, "forbidden_colors": []}, {"node": 76, "assigned_color": 1, "forbidden_colors": []}, ... {"node": 12, "assigned_color": 0, "forbidden_colors": [1]}, ... ]}", "solution": "{92: 1, 76: 1, 39: 1, 12: 0, 53: 0, 28: 1 ... 75: 0, 83: 1}" }

搜集汇总

数据集介绍

构建方式

在复杂约束满足问题领域，现有合成数据集常因依赖大语言模型生成推理轨迹而引入标签噪声与幻觉。本数据集采用严谨的生成流程，通过微软Z3定理证明器对每一组图着色任务进行数学验证，确保标签零噪声。数据生成过程强调多样性，图结构涵盖随机图、二分图、树状图及近团图，节点规模从8至120个不等，边数最高超过1600条。为强化算法泛化能力，节点索引与颜色标签均经过随机置换增强，有效防止模型对固定模式的记忆，从而专注于学习蒙特卡洛树搜索式的回溯与冲突消解机制。

特点

本数据集的核心特征在于其高可靠性与信息密度。所有数据均经过Z3定理证明器严格验证，彻底杜绝了大语言模型常见的幻觉问题，为训练提供了纯净的监督信号。推理轨迹以紧凑的JSON格式记录，摒弃了冗长的叙述性语言，清晰呈现贪心启发式搜索、禁色列表及显式的回溯信号，实现了极高的信息压缩率。此外，数据集在任务类型、图拓扑结构与难度层级上均呈现均衡分布，不仅包含标准的全图着色任务，还融入了验证、冲突消解、缺失颜色推断及精确色数计算等多种任务，旨在全面塑造模型的系统性推理能力。

使用方法

该数据集专为训练大语言模型进行系统性推理而设计，适用于监督微调场景。使用者可直接加载数据集中结构化的JSON字段，其中`instruction`字段作为模型输入提示，`reasoning`字段提供了程序化的逐步推理轨迹作为学习目标，`solution`字段则为最终验证答案。鉴于部分样本的上下文长度需求可能超过5万个标记，建议使用支持长上下文（如64K以上）的模型架构进行训练。数据集的多种任务类型与难度分层支持渐进式课程学习策略，有助于引导模型从基础约束满足逐步掌握复杂的回溯与冲突分析技能。

背景与挑战

背景概述

在人工智能领域，大型语言模型在复杂逻辑推理任务上仍面临显著局限，尤其在需要系统性、逐步推导的约束满足问题上，模型常产生幻觉或错误解答。为应对这一挑战，Z3-Verified-Reasoning-Graphs数据集应运而生，由研究人员nagygabor创建并发布于HuggingFace平台。该数据集聚焦于图着色问题，通过集成微软Z3定理证明器进行数学验证，旨在为模型训练提供零噪声、高确定性的推理轨迹。其核心研究问题在于提升语言模型在蒙特卡洛树搜索式回溯、冲突解决与约束满足方面的能力，模拟人类系统二的深层推理机制，对推进可验证人工智能与符号推理融合具有重要影响力。

当前挑战

该数据集致力于解决复杂约束满足与图着色问题中的算法性推理挑战，要求模型不仅输出结果，还需生成可验证的逐步推理轨迹，从而克服传统合成数据集中常见的标签噪声与幻觉现象。在构建过程中，挑战主要体现在确保数据集的数学严谨性与多样性：一方面需通过Z3证明器对每一条解进行严格验证，消除任何不确定性；另一方面需设计涵盖随机、二分、树状及近团等多种拓扑结构，并动态划分难度等级，以防止模型陷入模式记忆而非算法学习。此外，生成高信息密度且非冗长的JSON格式推理轨迹，同时平衡不同任务类型的分布，亦构成了数据构建的技术难点。

常用场景

经典使用场景

在约束满足与组合优化领域，图着色问题作为经典NP难问题，常被用于评估计算系统的逻辑推理能力。Z3-Verified-Reasoning-Graphs数据集通过提供经过Z3定理证明器严格验证的图着色任务，成为训练大型语言模型进行蒙特卡洛树搜索式回溯与冲突消解的基准工具。其核心应用场景在于模拟人类“系统2”思维过程，引导模型在复杂约束下执行逐步、确定性的推理，从而提升模型在结构化问题求解中的泛化性能与鲁棒性。

衍生相关工作

该数据集的构建理念促进了多项前沿研究工作的诞生。例如，基于其回溯轨迹格式，研究者开发了新型的思维链微调策略，增强了模型在长程推理中的一致性保持能力。同时，其多任务平衡设计启发了层次化课程学习框架的构建，使模型能够从易到难渐进掌握图着色算法。此外，该数据集也被用作评估神经符号系统性能的基准，催生了融合蒙特卡洛树搜索与注意力机制的新型架构，推动了可解释人工智能在组合优化领域的发展。

数据集最近研究