gsm8k

Hugging Face2025-08-10 更新2025-08-11 收录

下载链接：

https://huggingface.co/datasets/JakeOh/gsm8k

下载链接

链接失效反馈

官方服务：

资源简介：

数据集包含三种配置：默认配置、llama-3.2-1b-step-1配置和llama-3.2-1b-step-2配置。默认配置有问题和答案两种字符串类型的特征，分为训练集、测试集和评估集。另外两种配置在此基础上增加了预测、是否正确、是否验证者、选中内容及其角色、拒绝内容及其角色等特征，分别有训练集和评估集。每个配置都有详细的数据大小和示例数量信息。

The dataset contains three configurations: the default configuration, the llama-3.2-1b-step-1 configuration, and the llama-3.2-1b-step-2 configuration. The default configuration has two string-type features: question and answer, and is divided into training, test, and evaluation sets. The other two configurations, built upon the default setup, add additional features including prediction, correctness judgment, verifier flag, selected content and its corresponding role, as well as rejected content and its corresponding role; each of these two configurations includes a training set and an evaluation set. Each configuration is accompanied by detailed information regarding data size and the number of samples.

创建时间：

2025-08-10

原始信息汇总

数据集概述

基本信息

数据集名称: JakeOh/gsm8k
配置数量: 3
- default
- llama-3.2-1b-step-1
- llama-3.2-1b-step-2

配置详情

配置1: default

特征:
- question: string
- answer: string
数据划分:
- train: 6725个样本，大小约3.36MB
- test: 1319个样本，大小约673KB
- eval: 748个样本，大小约374KB
下载大小: 2.51MB
数据集总大小: 4.41MB

配置2: llama-3.2-1b-step-1

特征:
- question: string
- answer: string
- prediction: string
- is_correct: bool
- is_verifier: bool
- chosen: list
  - content: string
  - role: string
- rejected: list
  - content: string
  - role: string
数据划分:
- train: 66587个样本，大小约133.22MB
- eval: 2225个样本，大小约4.46MB
下载大小: 21.09MB
数据集总大小: 137.68MB

配置3: llama-3.2-1b-step-2

特征:
- question: string
- answer: string
- prediction: string
- is_correct: bool
- is_verifier: bool
- chosen: list
  - content: string
  - role: string
- rejected: list
  - content: string
  - role: string
数据划分:
- train: 48041个样本，大小约97.05MB
- eval: 1483个样本，大小约2.98MB
下载大小: 16.21MB
数据集总大小: 100.04MB

搜集汇总

数据集介绍

构建方式

gsm8k数据集作为数学推理领域的基准测试集合，其构建过程体现了严谨的学术规范。该数据集通过人工精心设计涵盖小学水平的数学应用题，确保题目在语言表述和数学概念上的准确性。原始版本包含7473个训练样本和1319个测试样本，每个样本由自然语言描述的问题和分步骤解答组成，数据划分遵循机器学习标准范式以保障评估效度。后续扩展版本如llama-3.2-1b-step系列，则通过模型生成预测结果并标注正确性，形成包含66587个训练样本的大规模增强数据集。

特点

该数据集最显著的特征在于其多维度标注体系，除基础的问题-答案对外，llama系列配置额外包含模型预测结果、验证标签及对话式交互数据。问题设计强调现实场景的数学应用，涉及算术、几何等多元数学概念，答案呈现分步推导过程以支持可解释性研究。数据架构采用灵活的嵌套结构，chosen和rejected字段以消息列表形式保存对话历史，为偏好学习提供丰富监督信号。不同配置版本间形成渐进式难度梯度，支持从基础能力评估到复杂推理研究的全链条实验需求。

使用方法

研究者可通过HuggingFace数据集库直接加载不同配置版本，标准版适用于基础数学推理能力测评，llama扩展版则专为偏好对齐研究设计。典型使用流程包括：加载指定config_name获取数据分割，利用question字段作为模型输入，answer字段作为监督信号。对于增强版本，is_correct字段可用于错误分析，chosen/rejected对话对能够训练奖励模型。评估阶段建议采用官方划分的test或eval集合，其答案的逐步解析特性支持细粒度性能诊断。多版本设计使该数据集能同时服务于传统监督学习、强化学习从人类反馈中学习等不同研究范式。

背景与挑战

背景概述

gsm8k数据集由OpenAI研究团队于2021年推出，旨在推动数学推理领域的研究进展。该数据集包含8.5K个高质量的小学数学应用题，涵盖基础算术、分数、几何等多个子领域，每个问题均配备详细的逐步解答。作为首个专注于多步骤数学推理的大规模数据集，gsm8k为评估模型的分步推理能力建立了新的基准，显著促进了语言模型在复杂数学问题求解方面的研究。

当前挑战

该数据集面临的核心挑战在于数学推理的复杂性要求模型具备分步演算能力，而非简单模式匹配。构建过程中需解决人工标注一致性问题，确保每个解题步骤的严谨性和教育正确性。同时，问题表述的多样性对模型的泛化能力提出更高要求，需要避免表面模式的学习而真正掌握数学原理。数据集的扩展性挑战体现在如何保持标注质量的同时扩大问题覆盖面，以应对更复杂的数学领域。

常用场景

经典使用场景

在数学推理领域，gsm8k数据集因其精心设计的数学问题而成为评估语言模型数学推理能力的基准工具。该数据集包含数千道小学水平的数学应用题，要求模型不仅理解自然语言描述的问题，还需执行多步推理才能得出正确答案。研究人员通过模型在该数据集上的表现，能够直观比较不同模型在复杂数学推理任务上的优劣。

解决学术问题

gsm8k数据集的构建有效解决了自然语言处理领域对复杂数学推理能力量化评估的需求。传统语言模型在简单算术运算上表现良好，但面对需要多步推理的应用题时往往力不从心。该数据集通过标注详细的解题步骤，为研究模型的可解释推理过程提供了标准化的测试平台，推动了链式推理、验证机制等关键技术的研究进展。

衍生相关工作

围绕gsm8k数据集，研究者们开发了包括CoT（Chain-of-Thought）提示、自验证机制在内的一系列创新方法。Meta团队提出的LLaMA模型在该数据集上验证了参数高效微调技术的有效性，而Google研究的PaLM模型则通过该数据集证明了缩放定律在复杂推理任务中的适用性。这些工作共同推动了语言模型数学推理能力的边界。

以上内容由遇见数据集搜集并总结生成