GSM-8k

Name: GSM-8k
Creator: 微软亚洲研究院
Published: 2025-04-10 01:53:55
License: 暂无描述

arXiv2025-04-10 更新2025-04-11 收录

下载链接：

https://arxiv.org/abs/2504.07080v1

下载链接

链接失效反馈

官方服务：

资源简介：

GSM-8k数据集是由微软亚洲研究院创建的，用于评估大型语言模型在中学数学问题上的推理能力。该数据集包含8000个问题，这些问题是标准数学基准问题的扰动版本，旨在评估模型在面对新颖问题时的一致性推理能力。数据集通过修改原始问题中的数值来生成，以保持问题的难度不变。该数据集的应用领域是大型语言模型在数学推理任务上的性能评估，旨在解决模型在处理新颖问题时的推理错误问题。

The GSM-8K dataset was developed by Microsoft Research Asia to evaluate the reasoning capabilities of large language models (LLMs) on middle school mathematics problems. It contains 8,000 problems, all of which are perturbed variants of standard mathematical benchmark questions, designed to assess a model's consistent reasoning ability when faced with novel problems. The dataset is generated by modifying the numerical values within the original problems while retaining the original difficulty level of the questions. The application domain of this dataset focuses on performance evaluation of large language models on mathematical reasoning tasks, aiming to address the reasoning errors exhibited by models when handling unprecedented mathematical problems.

提供机构：

微软亚洲研究院

创建时间：

2025-04-10

搜集汇总

数据集介绍

构建方式

GSM-8k数据集的构建采用了创新的扰动生成方法，通过模板化基准问题的解决方案并转化为可执行代码，随后对变量值进行系统化扰动以生成新颖问题。研究团队首先利用预训练语言模型（如LLaMA-3-70B）对原始数学问题进行解构，将其转化为包含变量模板的自然语言推理链和Python代码表示。通过严格的正确性验证后，采用基于代码符号操作的变量值采样策略，确保生成的问题在保持逻辑结构不变的前提下实现数值层面的多样性，最终形成包含165个原始问题及其扰动变体的评估数据集。

特点

该数据集最显著的特征在于其精心设计的扰动机制，能够有效避免模型对基准问题的记忆效应。通过控制变量替换的粒度，数据集在保持问题难度不变的前提下，实现了对语言模型演绎推理能力的细粒度评估。每个问题配备完整的推理链标注，支持以前提数量和推理步数为维度进行一致性分析。特别值得注意的是，数据集揭示了语言模型在原始问题和扰动问题上表现的显著差异，为研究模型真实推理能力而非记忆能力提供了理想实验场。

使用方法

使用GSM-8k数据集时，研究者可通过提供的评估框架系统分析语言模型的演绎一致性。典型流程包括：将扰动后的问题输入目标模型，通过链式思维（CoT）提示获取中间推理步骤；利用代码解析器提取关键变量值；与基准解决方案进行逐跳比对。评估指标重点关注模型在递增前提长度下的理解能力，以及多跳推理中的准确性衰减趋势。该数据集特别适合用于分析后训练方法（如监督微调和强化学习）对模型基础推理能力的影响，建议配合提出的衰减系数指标进行跨模型比较。

背景与挑战

背景概述

GSM-8k数据集由微软研究院印度团队于2021年创建，旨在评估语言模型在小学数学推理任务上的表现。该数据集包含8,500道小学级别的数学应用题，涵盖四则运算、分数、比例等基础数学概念，要求模型通过多步推理生成解题过程。作为首个专注于链式推理（Chain-of-Thought）评估的数学数据集，GSM-8k推动了复杂推理任务中模型透明性和可解释性的研究，成为衡量模型数学推理能力的基准工具之一。其创新性在于将传统答案准确性评估扩展到中间步骤的逻辑一致性分析，对后续数学推理数据集如MATH、SVAMP的设计产生深远影响。

当前挑战

GSM-8k面临的核心挑战体现在两个维度：在领域问题层面，模型对扰动问题（如变量值替换）的推理准确率较原始问题下降15-30%，暴露出泛化能力不足；多跳推理步骤增加导致的错误累积现象显著，当推理步数从1增至5时，模型演绎一致性下降幅度高达30%。在构建层面，需解决模板化解决方案与代码执行的语义对齐问题，确保数值替换后推理逻辑不变性；同时需设计严格的验证流程（如代码执行校验、变量映射一致性检查）以过滤约30%的无效样本。此外，数据扰动可能引发语言风格偏移，需通过多风格释义控制变量干扰。

常用场景

经典使用场景

GSM-8k数据集作为评估大语言模型数学推理能力的基准工具，其经典使用场景聚焦于多步数学应用题求解。研究人员通过设计包含加减乘除、分数运算等基础数学概念的文本问题，要求模型生成包含中间推理步骤的链式思考（Chain-of-Thought），最终验证模型对数学逻辑的理解与计算准确性。该数据集特别适用于测试模型在解决需要2-8个推理步骤的复杂问题时，是否能够保持逻辑连贯性。

实际应用

在实际应用中，GSM-8k被广泛集成于智能教育系统的自动解题模块，用于评估辅导AI的数学问题讲解能力。科技公司采用其扰动生成机制创建对抗性测试集，优化金融领域合同条款计算、医疗剂量换算等需要数值推理的场景。数据集衍生的评估框架还能检测模型在客服对话中处理价格计算、优惠组合等商业逻辑的可靠性，为工业级AI系统的逻辑缺陷定位提供诊断工具。

衍生相关工作

基于GSM-8k的评估范式催生了多项经典研究：Mirzadeh等人提出变量扰动法构建GSM-Symbolic数据集，系统分析模型对数学结构的泛化能力；LogicBench扩展其评估框架至命题逻辑和直觉主义逻辑证明领域；Qwen团队开发的Math-Instruct模型通过该数据集验证强化学习对多跳推理的提升效果。后续工作如SynDeduct进一步构建合成数据集，将推理步数扩展至24跳，深化了对长程逻辑依赖的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集