five

Falenabdilah/gsm8k

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Falenabdilah/gsm8k
下载链接
链接失效反馈
官方服务:
资源简介:
GSM8K(Grade School Math 8K)是一个包含8.5K高质量、语言多样的小学数学文字问题的数据集。该数据集旨在支持需要多步推理的基本数学问题的问答任务。问题解决需要2到8步,主要涉及基本算术运算(+ − ×÷)。数据集中的问题适合中学生解决,无需超出早期代数水平的概念。解决方案以自然语言形式提供,而非纯数学表达式。数据集包含两种配置:main和socratic,分别提供不同的答案格式。

GSM8K (Grade School Math 8K) is a dataset of 8.5K high quality linguistically diverse grade school math word problems. The dataset was created to support the task of question answering on basic mathematical problems that require multi-step reasoning. These problems take between 2 and 8 steps to solve. Solutions primarily involve performing a sequence of elementary calculations using basic arithmetic operations (+ − ×÷) to reach the final answer. A bright middle school student should be able to solve every problem: from the paper, Problems require no concepts beyond the level of early Algebra, and the vast majority of problems can be solved without explicitly defining a variable. Solutions are provided in natural language, as opposed to pure math expressions. The dataset includes two configurations: main and socratic, each providing different answer formats.
提供机构:
Falenabdilah
搜集汇总
数据集介绍
main_image_url
构建方式
GSM8K(Grade School Math 8K)数据集旨在为多步推理数学问题提供高质量、语言多样化的样本。其构建过程严谨而系统:首先在Upwork平台招募自由职业者,撰写并解答约一千道基础数学应用题及对应的自然语言解答;随后借助NLP数据标注平台Surge AI,将样本规模扩展至八千五百道。为确保数据准确性,每位标注者需重新解答非自创题目,并与原始解答进行一致性校验,凡存在分歧的问题均被修复或剔除。在后续小规模复核中,仅有1.7%的问题仍存在标注者间的分歧,该比例被视作数据集的潜在错误率。
特点
该数据集聚焦于小学级别数学应用题,题目涵盖2至8步的推理过程,解题主要依赖加减乘除等基础算术运算,无需超出早期代数范畴的数学概念,确保一个聪明的中学生能够解答所有问题。每个样本包含自然语言形式的问题与完整解答,解答中嵌入了逐步推理过程及计算注释,如'<<48/2=24>>',清晰展示每一步计算。此外,数据集提供两种配置:'main'为标准解答格式,'socratic'则在解答前添加苏格拉底式引导子问题,以模拟更具启发性的推理路径。
使用方法
使用GSM8K数据集时,可通过HuggingFace的datasets库便捷加载两个配置项:'main'和'socratic',每个配置下包含训练集(7473个样本)与测试集(1319个样本)。数据字段仅包括'question'(问题字符串)和'answer'(完整解答字符串),结构简洁。该数据集广泛用于评估语言模型在逻辑推理与数学计算方面的能力,常作为大型语言模型排行榜(如Open LLM Leaderboard)的基准测试之一。用户可直接采用标准自然语言处理框架,将问题作为输入,评估模型生成的解答是否包含正确的最终数值答案。
背景与挑战
背景概述
GSM8K(Grade School Math 8K)数据集由OpenAI研究团队于2021年创建,核心研究人员包括Karl Cobbe、Vineet Kosaraju等,旨在为自然语言处理领域提供高质量的小学数学应用题基准。该数据集包含约8,500道题目,每道题需2至8步基本算术运算求解,且答案以自然语言形式呈现,而非纯数学表达式。作为评估大语言模型数学推理能力的标准工具,GSM8K在LLM排行榜等多项基准测试中被广泛采用,其影响力深远,推动了语言模型在多步推理和逻辑思维方向上的发展。
当前挑战
该数据集解决的领域问题是提升语言模型对数学应用题的多步推理能力,传统模型往往难以将自然语言描述转化为正确的运算序列。构建过程中面临的主要挑战包括:数据收集依赖众包平台,需确保题目和解答的高质量与多样性;通过两轮一致性检查剔除错误或歧义问题,最终仍有约1.7%的题目存有潜在误差;此外,任务涉及从基本代数概念到复杂运算链的转换,对标注人员的数学素养要求较高,增加了数据标引的难度和成本。
常用场景
经典使用场景
GSM8K(Grade School Math 8K)数据集由OpenAI精心构建,包含约8500道高质量、语言多样的小学数学应用题,每道题需2至8步推理方能求解,且仅依赖基础算术运算(加减乘除)与早期代数概念。该数据集最经典的使用场景在于评估和提升大语言模型的数学推理能力,尤其是在多步链式思维(Chain-of-Thought)方面的表现。研究者和工程师常将GSM8K作为基准测试,检验模型能否像人类一样,通过自然语言逐步推导出最终数值答案,而非单纯依赖模式匹配或记忆。这一场景深刻揭示了语言模型在执行结构化逻辑任务时的内在机制与局限。
实际应用
在实际应用中,GSM8K数据集发挥了超越学术研究的广泛价值,尤其体现在教育科技与智能辅导系统领域。基于GSM8K训练的模型能够为学生提供逐步解题指导,模拟教师讲解的思维过程,从而辅助个性化学习。例如,智能教育平台可借助此类模型自动评估学生答题步骤的正确性,并针对错误推理环节给予精准反馈。此外,GSM8K还被广泛应用于自动化客服系统中的数值问题解答,以及金融、工程等需要多步计算的场景中,为机器赋予人类水平的数学问题解决能力,显著提升了人机交互的实用性与准确性。
衍生相关工作
自GSM8K问世以来,其影响力催生了众多里程碑式的衍生工作。最具代表性的是Wei等人提出的链式思维提示(Chain-of-Thought Prompting),该工作直接受益于GSM8K中自然语言推理解答的设计,通过引导模型生成中间推理步骤,显著提升了复杂数学题求解性能。此外,Kojima等人在零样本链式思维推理研究中也以GSM8K为关键评测基准。这些工作进一步催生了诸如SELF-CONSISTENCY、TREE-OF-THOUGHT等高级推理框架,以及专门针对数学推理优化的模型如Minerva和Galactica。GSM8K已稳固成为推动语言模型推理能力进化的强效推手。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作