GSM8k-Aug

Hugging Face2025-04-16 更新2025-04-17 收录

下载链接：

https://huggingface.co/datasets/zen-E/GSM8k-Aug

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练CODI模型，包含GSM8k-Aug和GSM8k-Aug-NL两个子数据集。GSM8k-Aug通过提示GPT-4扩展了原始GSM8k训练集至385k样本，并移除了所有自然语言交错的CoT，仅保留了结构化的数学表达式。GSM8k-Aug-NL保留了自然语言解释，用于评估方法的通用性和对更冗长的CoT压缩的有效性。数据集的格式为<问题>||<CoT>####<答案>。

创建时间：

2025-04-08

搜集汇总

数据集介绍

构建方式

在数学推理领域的数据增强研究中，GSM8k-Aug数据集通过智能化扩展手段实现了规模提升。该数据集基于原始GSM8k训练集，采用GPT-4模型进行样本生成，将数据规模扩充至385k条。构建过程中特别移除了思维链中的自然语言描述，仅保留结构化数学表达式，如"<<10/5=2>> <<2*2=4>>"的形式，这种处理方式专门针对隐式思维链训练需求而设计。

使用方法

该数据集主要应用于数学推理模型的训练与评估，特别是在隐式思维链方法研究中具有重要价值。研究人员可直接将结构化思维链作为监督信号，训练模型学习分步计算能力。配套的NL版本可用于验证模型对自然语言解释的生成质量。使用时需注意数据格式规范，问题与思维链以双竖线分隔，答案部分以四个井号标识，这种明确的分隔设计便于数据解析与模型输入处理。

背景与挑战

背景概述

GSM8k-Aug数据集作为数学问题求解领域的重要资源，由研究团队于2024年基于经典GSM8k数据集扩展构建。该数据集通过GPT-4生成技术，将原始训练样本扩充至38.5万条，旨在探索隐式思维链（Implicit Chain-of-Thought）在复杂数学推理任务中的应用潜力。其创新性地剥离了自然语言解释，仅保留结构化数学表达式，为研究算法如何从纯符号推理中获取解题逻辑提供了标准化测试平台。相关研究成果发表在计算机科学顶级会议论文中，对推动自动推理模型的内部化学习机制研究具有显著影响力。

当前挑战

该数据集主要针对数学推理任务中思维链的隐式表达这一前沿问题，其核心挑战在于如何使模型在没有自然语言解释的情况下准确理解运算逻辑。构建过程中面临数据质量控制的难题，包括GPT-4生成内容的准确性验证、结构化表达式的标准化处理，以及原始解题逻辑在去语言化后的信息完整性保持。同时，作为评估框架时，需解决模型对纯符号推理的适应性问题，这对传统依赖显式解释的CoT方法提出了新的泛化性要求。

常用场景

经典使用场景

在数学推理领域，GSM8k-Aug数据集通过结构化数学表达式呈现问题解决过程，为隐式思维链（CoT）方法提供了理想的训练环境。该数据集特别适用于探索语言模型在数学问题求解中的分步推理能力，研究者可利用其纯数学表达形式分析模型对运算逻辑的捕捉精度。

解决学术问题

该数据集有效解决了数学推理中自然语言干扰核心运算逻辑的学术难题，通过剥离语言描述保留纯粹数学表达式，使研究者能专注分析模型的算术推理能力。这种设计为评估模型在符号运算与数值计算方面的性能提供了标准化基准，推动了可解释AI在数学领域的发展。

实际应用

在教育科技领域，该数据集支撑的隐式CoT模型可转化为智能解题系统的核心引擎，实时生成标准化的数学推导步骤。其结构化输出格式便于集成至在线学习平台，为学生提供分步解题指导，同时为教师提供可量化的推理过程评估框架。

数据集最近研究