GSM8K

Name: GSM8K
Creator: 马里兰大学
Published: 2025-12-05 02:59:18
License: 暂无描述

arXiv2025-12-05 更新2025-12-06 收录

下载链接：

https://huggingface.co/purbeshmitra/semantic-soft-bootstrapping

下载链接

链接失效反馈

官方服务：

资源简介：

该研究基于GSM8K数学问题-答案数据集，构建了一个包含256条样本的精简子集，由马里兰大学团队通过语义软自举（SSB）方法自动生成。数据集包含原始数学问题及其对应的分步推理解答，通过模型自生成-筛选-修正的流程产生，无需人工标注。其核心特点在于采用对比学习框架，整合正确与典型错误解答以增强模型推理鲁棒性。该数据集专为提升大语言模型的数学推理能力设计，在MATH500和AIME2024基准测试中实现了10%以上的准确率提升，适用于数学教育、自动解题等AI推理研究领域。

This study develops a compact subset of 256 samples based on the GSM8K math problem-answer dataset, which is automatically generated by the University of Maryland team using the Semantic Soft Bootstrapping (SSB) method. The dataset includes original mathematical problems and their corresponding step-by-step reasoning solutions, produced via a model-driven self-generation, filtering and revision pipeline without manual annotation requirements. Its core characteristic is the adoption of a contrastive learning framework that integrates both correct and typical incorrect solutions to strengthen the model's reasoning robustness. This dataset is specifically designed to enhance the mathematical reasoning abilities of Large Language Models (LLMs), achieving an accuracy improvement of over 10% on the MATH500 and AIME2024 benchmark tests, and is suitable for AI reasoning research areas such as mathematics education and automated problem-solving.

提供机构：

马里兰大学

创建时间：

2025-12-05

搜集汇总

数据集介绍

构建方式

在数学推理领域，数据集的构建方式直接影响模型的学习效能。GSM8K数据集通过自蒸馏技术构建，其核心流程始于一个包含问题与最终答案的原始数据集。基础模型首先在无额外提示的情况下对每个问题生成多个推理轨迹，随后依据答案正确性将这些轨迹划分为正确与错误集合。从错误集合中筛选出最具代表性的错误答案轨迹，与随机选取的正确轨迹一同构成对比样本。模型随后在包含这些对比样本的提示下，生成一个经过修正的、步骤详尽且答案已验证的强化解释。这一流程自动从原始数据中构建出配对的教师-学生训练集，无需人工干预，同时生成教师模型在答案序列上的对数概率作为软标签，供后续蒸馏使用。

特点

该数据集的特点体现在其自监督与对比学习的巧妙融合上。它并非依赖传统强化学习的稀疏奖励，而是通过让同一基础模型扮演教师与学生的双重角色，实现语义层面的自我提升。教师模型接收包含正负样本的丰富上下文，从而合成具有错误警示的稳健推理轨迹；学生模型则仅接触原始问题，通过匹配教师生成的对数概率分布来学习推理模式。这种方法避免了奖励黑客问题，并保持了模型的泛化能力。数据集规模虽小，仅包含256个精选样本，却在MATH500和AIME2024基准测试中展现出显著的性能提升，凸显了其高效的数据利用率和强大的语义引导能力。

使用方法

在模型训练过程中，该数据集的使用方法侧重于对数概率层面的知识蒸馏。学生模型接收仅包含问题的输入，其目标是使自身生成的答案序列对数概率分布与教师模型预先计算的软标签分布之间的KL散度最小化。训练完全基于教师提供的软概率监督，不涉及硬标签的交叉熵损失或任何强化学习算法。这种纯蒸馏的范式使得模型能够从丰富的语义上下文中吸收推理知识，并在推断时仅凭问题本身复现出稳健的步骤化推理。该方法参数效率高，通常结合LoRA等微调技术，在少量计算资源下即可实现推理能力的实质性飞跃。

背景与挑战

背景概述

GSM8K数据集由OpenAI于2021年发布，是一个专门针对小学数学问题求解的高质量数据集。该数据集包含约8.5千道涵盖基础算术、分数、几何等领域的英文题目，每道题均配有详细的逐步推理答案。GSM8K的构建旨在评估和提升大型语言模型在复杂多步数学推理任务上的能力，尤其关注模型生成连贯思维链（Chain-of-Thought）的准确性。作为数学推理领域的基准测试之一，该数据集推动了如思维链提示、强化学习微调等关键技术发展，对提升模型逻辑推理与问题分解能力具有显著影响力。

当前挑战

GSM8K数据集所针对的数学推理任务面临多重挑战：模型需准确理解自然语言描述的数学问题，执行多步算术运算，并生成逻辑严密的推理过程，避免在长序列生成中出现错误累积。在数据集构建过程中，挑战主要体现于确保题目的多样性与难度平衡，覆盖广泛的小学数学知识点，同时为每道题提供高质量、无歧义的参考答案。此外，标注过程需要严谨的数学验证，以防止答案错误或推理漏洞，这对人工审核与自动化校验流程提出了较高要求。

常用场景

经典使用场景

在数学推理领域，GSM8K数据集作为基准测试工具，常被用于评估大型语言模型的逐步推理能力。该数据集包含数千道小学水平的数学应用题及其最终答案，研究者通过设计链式思维提示策略，引导模型生成详细的解题步骤。经典使用场景涉及将模型在GSM8K上的表现作为衡量其数学逻辑与符号运算能力的核心指标，通过对比不同模型在相同问题上的准确率，系统评估模型从自然语言描述中提取数学关系并进行正确计算的能力。

衍生相关工作

围绕GSM8K数据集衍生出多项经典研究工作，例如链式思维推理方法的提出与优化，通过显式生成中间步骤显著提升了模型在数学问题上的表现。后续研究进一步探索了基于该数据集的自我训练框架，如STaR方法通过迭代生成并筛选正确推理路径进行模型微调。近期工作如语义软自举技术，则利用模型自身生成的正确与错误答案作为对比样本，构建自蒸馏训练流程，在减少对强化学习依赖的同时，显著提升了模型在复杂数学基准测试上的准确率。

数据集最近研究