gsm8k

Hugging Face2025-08-12 更新2025-08-13 收录

下载链接：

https://huggingface.co/datasets/rvashurin/gsm8k

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个为LM-Polygraph基准测试而预处理的gsm8k数据集版本。数据集包含两种配置：'continuation'和'simple_instruct'，每种配置都有训练集和测试集。每个数据点包含两个字符串字段：'input'和'output'，分别对应LM-Polygraph的处理输入和处理输出。该数据集是为了将数据集创建代码与基准测试代码分离而创建的。

创建时间：

2025-08-12

原始信息汇总

数据集概述：gsm8k

数据集详情

数据集描述

维护者: https://huggingface.co/LM-Polygraph
许可证: https://github.com/IINemo/lm-polygraph/blob/main/LICENSE.md

数据集来源

代码库: https://github.com/IINemo/lm-polygraph

用途

直接用途

该数据集用于在LM-Polygraph中进行基准测试。

超出范围的用途

该数据集不应用于进一步的数据集预处理。

数据集结构

配置

continuation
- 特征:
  - input (string)
  - output (string)
  - stripped_input (string)
- 分割:
  - train: 7473个样本，21835848字节
  - test: 1319个样本，3875367字节
- 下载大小: 5515061字节
- 数据集大小: 25711215字节
simple_instruct
- 特征:
  - input (string)
  - output (string)
  - stripped_input (string)
- 分割:
  - train: 7473个样本，24653169字节
  - test: 1319个样本，4372630字节
- 下载大小: 5806326字节
- 数据集大小: 29025799字节

数据集创建

创建理由

该数据集旨在将数据集创建代码与基准测试代码分离。

源数据

源数据集: https://huggingface.co/datasets/gsm8k
数据处理脚本: https://github.com/IINemo/lm-polygraph/blob/main/dataset_builders/build_dataset.py

源数据生产者

源数据生产者是创建https://huggingface.co/datasets/gsm8k的人员。

偏见、风险和限制

该数据集包含与其源数据集https://huggingface.co/datasets/gsm8k相同的偏见、风险和限制。

建议

用户应了解该数据集的风险、偏见和限制。

搜集汇总

数据集介绍

构建方式

gsm8k数据集作为数学推理领域的重要基准，其构建过程体现了严谨的数据处理流程。原始数据来源于HuggingFace平台的gsm8k数据集，通过LM-Polygraph项目组的专用脚本进行深度加工，将原始数学问题转化为适合语言模型评测的结构化格式。数据处理过程中保留了原始问题的语义完整性，同时标准化了输入输出格式，形成包含7473条训练样本和1319条测试样本的高质量数据集，为数学推理能力评测提供了可靠基础。

特点

该数据集最显著的特点是采用双配置架构，包含continuation和simple_instruct两种任务模式，分别对应不同的指令格式。每个样本均包含原始输入、标准输出及去冗余处理后的精简输入三个字段，这种多维度表征方式为模型性能评估提供了丰富视角。数据集严格划分训练集与测试集，确保评测结果的可靠性，其问题设计覆盖广泛的数学概念和解题策略，能全面检验模型的数学推理能力。

使用方法

在使用gsm8k数据集时，研究者可根据需要选择continuation或simple_instruct配置进行实验。数据集直接适配LM-Polygraph评测框架，输入输出字段已预处理为标准化格式，便于快速接入各类语言模型。建议使用者首先加载指定配置的分割数据，通过input字段输入问题，并比对模型输出与output字段的标准答案。需要注意保持原始数据划分，以获取可比较的评测结果，同时应充分考虑数据集固有的领域局限性。

背景与挑战

背景概述

gsm8k数据集作为数学推理领域的重要基准，由LM-Polygraph团队基于原始gsm8k数据集进行二次加工而成，旨在为语言模型的推理能力评估提供标准化测试平台。该数据集源自OpenAI团队于2021年发布的数学应用题集合，包含8.5K个高质量的小学数学问题，其创新性在于将自然语言理解与多步数学推理相结合。数据集构建过程中严格遵循教育认知规律，每道题目均需2至8步逻辑推导才能得出答案，这种设计显著提升了评估任务的复杂性，为研究语言模型的逻辑推理能力提供了理想测试场景。

当前挑战

该数据集面临的核心挑战主要体现在评估维度的复杂性上：题目要求模型同时掌握自然语言语义解析、数学符号转换和多步逻辑推理能力，这种复合型任务远超传统单步分类问题的难度。在数据构建层面，原始问题的语义多样性导致标注一致性难以保障，数学术语的多义性和解题路径的非唯一性增加了标注复杂度。此外，数据预处理过程中需要平衡问题表述的自然性与数学严谨性，既要保留教育场景的真实语境，又要确保逻辑推导的精确性，这对数据清洗和标准化流程提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，gsm8k数据集被广泛用于评估语言模型在数学推理任务上的表现。该数据集包含大量小学水平的数学问题，要求模型不仅理解自然语言描述的问题，还需进行多步推理才能得出正确答案。研究者通常利用该数据集测试模型的基础算术能力、逻辑推理能力以及问题分解能力，为衡量语言模型的数学理解水平提供了标准化基准。

实际应用

在实际应用中，gsm8k数据集支撑了教育科技领域智能辅导系统的开发。基于该数据集训练的模型能够解析学生提出的数学问题，生成分步解答过程，实现个性化学习指导。此外，该数据集也被应用于金融领域的自动化报表分析系统，帮助机器理解包含数值推理的商业文档，提升信息处理效率。

衍生相关工作

围绕gsm8k数据集已衍生出多项重要研究，包括Chain-of-Thought提示技术的优化、多步推理模型的架构改进等。MetaAI基于该数据集开发了专门解决数学问题的语言模型Llemma，Google Research则利用其探索了混合符号-神经网络的推理方法。这些工作显著推进了语言模型在复杂推理任务中的应用边界。

以上内容由遇见数据集搜集并总结生成