GSM8K-OpenMath-MathReason-13k

Hugging Face2025-12-04 更新2025-12-05 收录

下载链接：

https://huggingface.co/datasets/HAD653/GSM8K-OpenMath-MathReason-13k

下载链接

链接失效反馈

官方服务：

资源简介：

GSM8K + OpenMath MathReason 13k数据集是一个数学推理数据集，包含13,857个监督学习的示例。每个示例包含一个自然语言的数学应用题（question）、结构化的思维链解决方案（cot）和最终答案（final_answer）。数据集的目标是为小型语言模型（1B-3B规模）提供高质量的监督微调（SFT）和评估材料。数据集结合了类似GSM8K的学校风格问题和过滤后的OpenMath风格问题，并将所有解决方案规范化为一致的、人类可读的思维链格式。

创建时间：

2025-12-03

原始信息汇总

GSM8K + OpenMath MathReason 13k 数据集概述

数据集基本信息

数据集名称：GSM8K + OpenMath MathReason 13k
标签：数学、数学问题、问答、思维链、CoT、gsm8k、openmath、合成数据、指令微调、小语言模型
许可证：其他
语言：英语
任务类别：文本生成、问答
规模类别：10K<n<100K
样本数量：13,857

数据集摘要

包含 13,857 个监督学习示例。
每个示例包含：
- question：自然语言数学应用题。
- cot：结构化的思维链解决方案，包含三个明确部分：
  - Problem:
  - Reasoning:
  - Answer:
- final_answer：规范简短答案（通常为单个数字）。
问题难度为 简单到中等，目标模型规模约为1B–3B参数。
旨在用于数学推理模型的 监督微调 和评估。
数据集混合了小学风格问题（类似GSM8K）和经过筛选的OpenMath风格问题，并将所有解决方案规范化为一致、人类可读的思维链格式，包含明确的 问题/推理/答案 模块。

数据集结构

数据字段

每个数据行是一个JSON对象，包含以下字段：

question：自然语言数学应用题，通常为1–6句话。
cot：完整思维链解决方案，采用固定的三模块模板。
final_answer：从思维链中提取的规范最终答案，存储为文本字符串。

数据划分

train：13,857个示例。
未提供官方的验证集或测试集划分。

示例

典型示例如下： json { "question": "Albert is wondering how much pizza he can eat in one day. He buys 2 large pizzas and 2 small pizzas. A large pizza has 16 slices and a small pizza has 8 slices. If he eats it all, how many pieces does he eat that day?", "cot": "Problem: Albert buys 2 large pizzas (16 slices each) and 2 small pizzas (8 slices each). Find total slices eaten.

Reasoning:

Large pizza slices = 2*16 = 32.
Small pizza slices = 2*8 = 16.
Total slices = 32+16 = 48.

Answer: 48", "final_answer": "48" }

数据来源

原始问题

问题源自开放的数学推理数据集，例如：

GSM8K风格的小学应用题（多步骤算术、简单代数）。
开源 OpenMath风格 的指令微调语料库。
仅保留 简单到中等难度 的问题，以匹配小语言模型的目标能力。

思维链生成

针对每个问题：

由强大的教师模型生成完整的思维链解决方案。
解决方案被 规范化 为三模块结构。
后处理步骤确保 Answer: 模块中的数值结果与 final_answer 字段匹配，并过滤掉明显不一致或错误的解决方案。

标注

数据集中 没有明确的难度标签。
目前未公开额外的元数据。

预期用途

主要用例

小模型（0.5B–7B参数）在数学应用题上的 监督微调。
通用指令微调模型在以下方面的 专门化：
- 算术应用题
- 基础代数
- 简单组合数学和数论
小规模数学推理的 评估和消融实验。

适用范围外的用途

该数据集不适用于：

未经额外保障措施和人工监督，直接用于教育、金融或任何安全关键领域的决策关键系统训练。
如果评估时使用了相同的问题，将其作为在GSM8K或OpenMath类型基准测试上声称排行榜结果的“秘密测试集”。

数据加载方式

使用 🤗 datasets 库加载： python from datasets import load_dataset dataset = load_dataset("HAD653/GSM8K-OpenMath-MathReason-13k")

数据质量、偏见与局限性

优势

对小模型具有高信号：专注于1B–3B模型可解决的问题，避免极端困难的部分。
结构化思维链：一致的 Problem / Reasoning / Answer 模块便于监督详细推理、提取最终答案和运行自动正确性检查。
紧凑的规模：13k示例足以有意义地专门化模型，同时在单个高端GPU上训练成本低廉。

局限性

领域覆盖有限：数据集主要涵盖小学和初中早期主题，不涵盖高级竞赛数学、证明或微积分。
合成解释：思维链由大型教师模型生成，而非人类教师。虽然通常正确，但解释有时可能冗长、略有冗余或风格不一致。
与现有基准测试存在潜在重叠：如果将此数据集与其他数学语料库混合使用或重用GSM8K/OpenMath测试集，应仔细检查重叠以避免乐观评估。

隐私与伦理考虑

问题可能包含简单的虚构名称、对象和故事背景，但不包含真实的个人身份信息。
与任何数学数据集一样，主要风险是 过度依赖自动推理。对于高风险场景，人工审查仍然必不可少。

许可信息

该数据集基于现有的开放数学资源和合成模型生成构建。
用户需确保遵守 原始源数据集 的许可证。
元数据中的 license: other 字段是占位符。

搜集汇总

数据集介绍

构建方式

该数据集通过整合GSM8K风格的基础数学问题与经过筛选的OpenMath类型问题，构建了一个包含13,857个监督学习样本的数学推理资源。每个样本均包含自然语言描述的问题、结构化的思维链解答以及最终答案。思维链部分采用统一的三段式模板，即问题重述、逐步推理和答案总结，这一格式由强大的教师模型生成并经过规范化处理，确保解答的内部一致性与可解析性。数据集的构建过程特别注重保留难度适中、适合小型语言模型处理的问题，旨在为模型训练提供高质量的信号。

特点

本数据集的核心特点在于其专注于为参数量在1B至3B规模的小型语言模型提供高效训练信号。所有思维链解答均遵循清晰的三段式结构，这种设计不仅便于人类阅读与检查，也适合直接作为监督微调的监督信号。数据集规模紧凑，约1.4万个样本，聚焦于多步骤算术与基础代数等中等难度问题，避免了竞赛级难题的干扰，从而优化了小型模型的训练效率与效果。此外，数据格式统一，答案易于提取，支持自动化的正确性验证。

使用方法

该数据集主要用于小型语言模型的监督微调，以提升其在数学词问题上的推理能力。使用时可借助Hugging Face的`datasets`库直接加载。在训练阶段，建议采用“指令-响应”模板，将`question`字段作为指令，`cot`字段作为期望的模型响应进行格式化。推理时，则仅需向模型提供问题文本，引导其生成完整的思维链并得出最终答案。用户可根据实验需求自行划分训练集与验证集，并注意避免与现有评估基准的数据重叠，以确保评估结果的可靠性。

背景与挑战

背景概述

在人工智能与自然语言处理领域，数学推理能力是评估语言模型认知水平的关键维度。GSM8K-OpenMath-MathReason-13k数据集由社区研究者于近年构建，旨在为参数规模在1B至3B的小型语言模型提供高质量、结构化的数学推理监督数据。该数据集融合了GSM8K风格的初等数学应用题与经过筛选的OpenMath类问题，通过强教师模型生成标准化的思维链解答，并规范为“问题-推理-答案”的三段式结构。其核心研究聚焦于提升小型模型在算术、基础代数等中等难度数学问题上的多步推理性能，为模型微调与评估提供了紧凑而高效的训练资源，推动了轻量化推理模型的发展。

当前挑战

该数据集致力于解决数学推理领域中小型模型面临的挑战，即如何在有限参数下有效学习多步骤、结构化的解题逻辑。构建过程中的主要困难在于平衡问题难度与模型能力，需从海量数学语料中筛选出适合小型模型求解的中等难度题目，并确保思维链解答的准确性与一致性。此外，数据合成依赖大型教师模型生成推理轨迹，可能存在解释冗余或风格不一致的风险，同时需警惕与现有基准测试集的数据重叠问题，以避免评估偏差。

常用场景

经典使用场景

在数学推理领域，GSM8K-OpenMath-MathReason-13k数据集为小型语言模型的监督微调提供了经典范例。该数据集精心整合了易于中等难度的数学应用题，并采用结构化思维链格式，旨在提升模型的多步骤算术与代数推理能力。研究人员通常利用其清晰的“问题-推理-答案”框架，对参数规模在1B至3B之间的模型进行专业化训练，以优化模型在解决基础数学问题时的逻辑连贯性与准确性。

解决学术问题

该数据集有效应对了当前数学推理研究中的关键挑战：大型公开思维链数据集往往规模庞大且难度跨度极广，不利于小型模型的针对性优化。通过聚焦于紧凑且高信号的数据区域，它解决了小型模型在复杂尾部问题上表现不佳，同时未能充分利用简易区域的问题。其意义在于为社区提供了一个高质量、规模适中的监督信号源，推动了针对轻量级模型的数学推理能力专项研究，促进了高效训练范式的探索。

衍生相关工作

围绕该数据集的结构化思维链范式，衍生出一系列专注于提升小型模型数学推理能力的经典工作。例如，研究社区借鉴其“问题-推理-答案”的三段式模板，开发了适用于Granite、Llama-3.x等小型模型的高效训练方法。同时，其数据构建理念也启发了后续针对特定难度区间的数据筛选与合成工作，推动了在Qwen2.5-Math等数学专用模型上的适配与性能优化研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集