DAG-MATH-Formatted-CoT

github2025-10-20 更新2025-10-27 收录

下载链接：

https://github.com/YuanheZ/DAG-MATH

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2,894个黄金标准的DAG-MATH格式思维链，用于来自Omni-MATH的数学问题。每个JSON文件描述一个问题，包括问题ID、领域、难度、问题文本、样本ID、最终答案和步骤列表，步骤对象包含步骤ID、边、直接依赖步骤和节点，用于标准化推理过程。

This dataset contains 2,894 gold-standard chain-of-thought instances in DAG-MATH format, targeting mathematical problems sourced from Omni-MATH. Each JSON file describes one problem, including problem ID, domain, difficulty level, problem text, sample ID, final answer, and a step list. The step objects contain step ID, edges, direct dependent steps and nodes, which are used for standardized reasoning processes.

创建时间：

2025-10-20

原始信息汇总

数据集概述

基本信息

数据集名称：DAG-MATH
数据来源：基于Omni-MATH数据集中的问题生成
数据规模：包含2,894条黄金标准的DAG-MATH格式化思维链

数据结构

顶层模式

每个JSON文件为包含单个问题描述对象的列表：

problem_id：整数型问题标识符
domain：字符串列表，描述主题分类
difficulty：数值难度指标，范围1-6（1为最简单，6为最难）
problem_text：问题陈述文本
sample_id：解决方案轨迹的样本标识符
final_answer：最终答案字符串
steps：步骤对象列表

步骤模式（标准化）

每个步骤对象捕获推理DAG中的节点及其叙述：

step_id：步骤在问题内的唯一整数标识符（首先出现）
edge：从前提到结论的推理过程
direct_dependent_steps：该步骤直接依赖的步骤ID列表或null值
node：当前步骤的简要结论

关键特性

步骤对象内部键顺序标准化为：step_id、edge、direct_dependent_steps、node
采用有向无环图（DAG）结构组织推理步骤
提供完整的推理轨迹和最终答案

搜集汇总

数据集介绍

构建方式

在数学推理领域，DAG-MATH-Formatted-CoT数据集基于Omni-MATH问题库精心构建，共收录了2,894条经过严格标注的思维链数据。每条数据均采用有向无环图结构组织推理步骤，通过标准化的JSON格式记录问题标识、领域分类、难度等级及详细解题过程。构建过程中，每个推理步骤被赋予唯一标识符，并明确标注其依赖的前序步骤，形成清晰的逻辑依赖关系，确保推理路径的完整性与可追溯性。

特点

该数据集最显著的特征在于其创新的图结构思维链表示方式，将传统线性推理扩展为多路径依赖网络。每个问题不仅包含最终答案，更通过步骤节点间的有向边完整呈现推理逻辑，支持复杂数学问题的多角度解析。数据涵盖从基础算术到高阶数学的六个难度层级，且每个步骤均严格遵循“步骤标识-推理边-依赖步骤-节点结论”的标准化键序排列，为研究多步数学推理提供了结构化的基准数据。

使用方法

研究者可通过解析标准化JSON文件直接获取结构化推理数据，利用步骤间的依赖关系重构完整推理图谱。该数据集适用于数学推理模型的训练与评估，特别是对多步推理和逻辑依赖建模的研究。使用时需注意遵循数据集的键序规范，通过direct_dependent_steps字段还原步骤间的拓扑关系，结合problem_text与node内容构建端到端的数学问题求解流程，为可解释人工智能研究提供可靠实验基础。

背景与挑战

背景概述

随着人工智能在数学推理领域的发展，传统线性思维链方法难以捕捉复杂问题中的多路径推理结构。DAG-MATH-Formatted-CoT数据集由研究团队于2024年构建，基于Omni-MATH题库的数学问题，通过有向无环图结构呈现2894条标准化推理轨迹。该数据集通过结构化步骤依赖关系，推动数学自动推理从序列化思维向拓扑化推理的范式转变，为可解释人工智能研究提供了关键数据支撑。

当前挑战

数学问题求解需处理多分支逻辑推导与动态依赖关系，传统序列化标注无法有效表达并行推理路径。数据集构建过程中面临双重挑战：在领域层面需将自然语言问题转化为带拓扑约束的推理图结构，避免循环依赖；在技术实现中需设计统一标注规范，平衡步骤粒度与逻辑完整性，同时确保数千条标注在跨难度问题时保持语义一致性。

常用场景

经典使用场景

在数学推理研究领域，DAG-MATH-Formatted-CoT数据集凭借其有向无环图结构，为复杂数学问题的多步推理提供了标准化建模框架。该数据集通过结构化步骤记录与依赖关系标注，成为验证链式推理模型在代数、几何等数学子领域性能的核心基准，尤其适用于评估模型处理非线性推理路径的能力。

解决学术问题

该数据集有效解决了数学自动推理中逻辑步骤离散化与依赖关系建模的学术难题。通过提供包含明确父子节点关联的标注数据，使研究者能够量化分析推理路径的合理性与完整性，为可解释人工智能理论提供了关键验证依据，显著推进了结构化推理表示方法的发展。

衍生相关工作

基于该数据集衍生的经典工作包括多模态数学推理框架MathNet与动态推理路径评估系统DAG-Eval。这些研究通过引入图神经网络建模步骤依赖关系，开创了基于拓扑排序的推理验证新范式，后续研究进一步拓展至跨领域语义解析与自适应推理控制机制。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集