gsm8k
收藏Hugging Face2025-08-12 更新2025-08-13 收录
下载链接:
https://huggingface.co/datasets/rvashurin/gsm8k
下载链接
链接失效反馈官方服务:
资源简介:
这是一个为LM-Polygraph基准测试而预处理的gsm8k数据集版本。数据集包含两种配置:'continuation'和'simple_instruct',每种配置都有训练集和测试集。每个数据点包含两个字符串字段:'input'和'output',分别对应LM-Polygraph的处理输入和处理输出。该数据集是为了将数据集创建代码与基准测试代码分离而创建的。
创建时间:
2025-08-12
原始信息汇总
数据集概述:gsm8k
数据集详情
数据集描述
- 维护者: https://huggingface.co/LM-Polygraph
- 许可证: https://github.com/IINemo/lm-polygraph/blob/main/LICENSE.md
数据集来源
- 代码库: https://github.com/IINemo/lm-polygraph
用途
直接用途
该数据集用于在LM-Polygraph中进行基准测试。
超出范围的用途
该数据集不应用于进一步的数据集预处理。
数据集结构
配置
-
continuation
- 特征:
- input (string)
- output (string)
- stripped_input (string)
- 分割:
- train: 7473个样本,21835848字节
- test: 1319个样本,3875367字节
- 下载大小: 5515061字节
- 数据集大小: 25711215字节
- 特征:
-
simple_instruct
- 特征:
- input (string)
- output (string)
- stripped_input (string)
- 分割:
- train: 7473个样本,24653169字节
- test: 1319个样本,4372630字节
- 下载大小: 5806326字节
- 数据集大小: 29025799字节
- 特征:
数据集创建
创建理由
该数据集旨在将数据集创建代码与基准测试代码分离。
源数据
- 源数据集: https://huggingface.co/datasets/gsm8k
- 数据处理脚本: https://github.com/IINemo/lm-polygraph/blob/main/dataset_builders/build_dataset.py
源数据生产者
源数据生产者是创建https://huggingface.co/datasets/gsm8k的人员。
偏见、风险和限制
该数据集包含与其源数据集https://huggingface.co/datasets/gsm8k相同的偏见、风险和限制。
建议
用户应了解该数据集的风险、偏见和限制。
搜集汇总
数据集介绍

构建方式
gsm8k数据集作为数学推理领域的重要基准,其构建过程体现了严谨的数据处理流程。原始数据来源于HuggingFace平台的gsm8k数据集,通过LM-Polygraph项目组的专用脚本进行深度加工,将原始数学问题转化为适合语言模型评测的结构化格式。数据处理过程中保留了原始问题的语义完整性,同时标准化了输入输出格式,形成包含7473条训练样本和1319条测试样本的高质量数据集,为数学推理能力评测提供了可靠基础。
特点
该数据集最显著的特点是采用双配置架构,包含continuation和simple_instruct两种任务模式,分别对应不同的指令格式。每个样本均包含原始输入、标准输出及去冗余处理后的精简输入三个字段,这种多维度表征方式为模型性能评估提供了丰富视角。数据集严格划分训练集与测试集,确保评测结果的可靠性,其问题设计覆盖广泛的数学概念和解题策略,能全面检验模型的数学推理能力。
使用方法
在使用gsm8k数据集时,研究者可根据需要选择continuation或simple_instruct配置进行实验。数据集直接适配LM-Polygraph评测框架,输入输出字段已预处理为标准化格式,便于快速接入各类语言模型。建议使用者首先加载指定配置的分割数据,通过input字段输入问题,并比对模型输出与output字段的标准答案。需要注意保持原始数据划分,以获取可比较的评测结果,同时应充分考虑数据集固有的领域局限性。
背景与挑战
背景概述
gsm8k数据集作为数学推理领域的重要基准,由LM-Polygraph团队基于原始gsm8k数据集进行二次加工而成,旨在为语言模型的推理能力评估提供标准化测试平台。该数据集源自OpenAI团队于2021年发布的数学应用题集合,包含8.5K个高质量的小学数学问题,其创新性在于将自然语言理解与多步数学推理相结合。数据集构建过程中严格遵循教育认知规律,每道题目均需2至8步逻辑推导才能得出答案,这种设计显著提升了评估任务的复杂性,为研究语言模型的逻辑推理能力提供了理想测试场景。
当前挑战
该数据集面临的核心挑战主要体现在评估维度的复杂性上:题目要求模型同时掌握自然语言语义解析、数学符号转换和多步逻辑推理能力,这种复合型任务远超传统单步分类问题的难度。在数据构建层面,原始问题的语义多样性导致标注一致性难以保障,数学术语的多义性和解题路径的非唯一性增加了标注复杂度。此外,数据预处理过程中需要平衡问题表述的自然性与数学严谨性,既要保留教育场景的真实语境,又要确保逻辑推导的精确性,这对数据清洗和标准化流程提出了极高要求。
常用场景
经典使用场景
在自然语言处理领域,gsm8k数据集被广泛用于评估语言模型在数学推理任务上的表现。该数据集包含大量小学水平的数学问题,要求模型不仅理解自然语言描述的问题,还需进行多步推理才能得出正确答案。研究者通常利用该数据集测试模型的基础算术能力、逻辑推理能力以及问题分解能力,为衡量语言模型的数学理解水平提供了标准化基准。
实际应用
在实际应用中,gsm8k数据集支撑了教育科技领域智能辅导系统的开发。基于该数据集训练的模型能够解析学生提出的数学问题,生成分步解答过程,实现个性化学习指导。此外,该数据集也被应用于金融领域的自动化报表分析系统,帮助机器理解包含数值推理的商业文档,提升信息处理效率。
衍生相关工作
围绕gsm8k数据集已衍生出多项重要研究,包括Chain-of-Thought提示技术的优化、多步推理模型的架构改进等。MetaAI基于该数据集开发了专门解决数学问题的语言模型Llemma,Google Research则利用其探索了混合符号-神经网络的推理方法。这些工作显著推进了语言模型在复杂推理任务中的应用边界。
以上内容由遇见数据集搜集并总结生成



