five

openai/gsm8k

收藏
Hugging Face2024-01-04 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/openai/gsm8k
下载链接
链接失效反馈
资源简介:
GSM8K(Grade School Math 8K)是一个包含8.5K高质量、语言多样的小学数学文字问题的数据集。该数据集旨在支持需要多步推理的基本数学问题的问答任务。问题通常需要2到8步来解决,主要涉及使用基本算术运算(+ − ×÷)进行一系列基本计算。数据集中的问题难度适合中学生解决,且大多数问题无需明确定义变量即可解决。解决方案以自然语言形式提供,而非纯数学表达式。数据集包含两个配置:main和socratic,分别提供不同形式的答案。数据集的结构包括问题字符串和包含多步推理的答案字符串。数据集的创建过程涉及通过众包平台收集和验证问题。

GSM8K (Grade School Math 8K) is a dataset containing 8.5K high-quality, linguistically diverse elementary school mathematics word problems. This dataset is developed to support question answering tasks for basic mathematical problems that demand multi-step reasoning. Most problems require 2 to 8 solving steps, primarily involving a sequence of basic calculations using fundamental arithmetic operations (+, −, ×, ÷). The difficulty of the problems in the dataset is appropriate for middle school students, and most can be solved without explicitly defining variables. Solutions are presented in natural language rather than purely mathematical expressions. The dataset offers two configurations, namely main and socratic, which provide answers in different forms. The dataset structure comprises question strings and answer strings that contain multi-step reasoning. The creation of this dataset involves collecting and validating problems through crowdsourcing platforms.
提供机构:
openai
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Grade School Math 8K (GSM8K)
  • 语言: 英语
  • 许可证: MIT
  • 多语言性: 单语种
  • 大小类别: 1K<n<10K
  • 源数据集: 原始数据
  • 任务类别: 文本生成
  • 标签: 数学应用题

数据集配置

主配置 (main)

  • 特征:
    • question: 问题字符串
    • answer: 答案字符串
  • 分割:
    • train: 7473个样本, 3963202字节
    • test: 1319个样本, 713732字节
  • 下载大小: 2725633字节
  • 数据集大小: 4676934字节

苏格拉底配置 (socratic)

  • 特征:
    • question: 问题字符串
    • answer: 答案字符串
  • 分割:
    • train: 7473个样本, 5198108字节
    • test: 1319个样本, 936859字节
  • 下载大小: 3164254字节
  • 数据集大小: 6134967字节

数据集描述

数据集摘要

GSM8K是一个包含8.5K高质量、语言多样化的初中数学应用题数据集。该数据集旨在支持需要多步推理的基本数学问题的问答任务。

  • 这些问题需要2到8步来解决。
  • 解决方案主要涉及使用基本算术运算(+ − ×÷)进行一系列基本计算以达到最终答案。
  • 一个聪明的初中生应该能够解决每个问题:从论文中,“问题不需要超出早期代数水平的概念,绝大多数问题可以在不明确定义变量的情况下解决。”
  • 解决方案以自然语言形式提供,而不是纯数学表达式。从论文中:“我们相信这是最有用的数据格式,我们期望它能揭示大型语言模型内部独白的特性”

支持的任务和排行榜

该数据集通常用于测试语言模型中的逻辑和数学能力。它已被用于许多基准测试,包括LLM Leaderboard

数据实例

主配置 (main)

python { question: Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?, answer: Natalia sold 48/2 = <<48/2=24>>24 clips in May. Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.

72,

}

苏格拉底配置 (socratic)

python { question: Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?, answer: How many clips did Natalia sell in May? ** Natalia sold 48/2 = <<48/2=24>>24 clips in May. How many clips did Natalia sell altogether in April and May? ** Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.

72,

}

数据字段

  • question: 初中数学问题字符串
  • answer: 包含多步推理、计算器注释和最终数值解决方案的完整答案字符串

数据分割

名称 训练集 测试集
main 7473 1319
socratic 7473 1319
搜集汇总
数据集介绍
main_image_url
构建方式
GSM8K数据集通过众包方式构建,由Surge AI平台协助收集和标注。初始阶段,通过雇佣自由职业者在Upwork平台上收集了1000个问题及其自然语言解答。随后,利用Surge AI平台扩展数据集,确保每个问题都经过重新解答和验证,以消除错误和歧义。最终,数据集包含8.5K个高质量、语言多样的小学数学应用题,涵盖2到8步的多步推理问题。
特点
GSM8K数据集的主要特点在于其问题和解答均以自然语言形式呈现,而非纯数学表达式。每个问题需要多步推理,涉及基本的算术运算。数据集分为两个配置:`main`和`socratic`,后者在解答中包含额外的苏格拉底式子问题,进一步增强了推理的复杂性。数据集的语言为英语,适用于测试语言模型在逻辑和数学推理方面的能力。
使用方法
GSM8K数据集可用于训练和评估语言模型在小学数学应用题上的表现。用户可以通过HuggingFace的Datasets库加载数据集,并根据需要选择`main`或`socratic`配置。数据集的每个实例包含一个数学问题及其多步推理的解答,适合用于文本生成任务。通过分析模型生成的解答,可以评估其在多步推理和自然语言理解方面的能力。
背景与挑战
背景概述
GSM8K(Grade School Math 8K)数据集由OpenAI于2021年发布,旨在支持多步推理的数学问题解答任务。该数据集包含了8.5K个高质量、语言多样化的中小学数学应用题,涵盖了从2到8步的解题步骤。这些问题主要涉及基本的算术运算,适合中学生水平的学生解答。GSM8K的创建不仅为语言模型在数学推理能力上的评估提供了基准,还通过自然语言形式的解答,揭示了大规模语言模型内部推理过程的特性。
当前挑战
GSM8K数据集的主要挑战在于其复杂的多步推理需求,这要求模型不仅能够理解问题,还需具备逐步推理的能力。构建过程中,数据集的创建者通过雇佣自由职业者和使用Surge AI平台进行数据标注,确保了数据的多样性和质量。然而,数据集仍存在1.7%的问题可能包含错误或歧义,这表明在数据质量控制方面仍有改进空间。此外,如何有效训练模型以处理这些多步推理问题,也是当前研究中的一个重要挑战。
常用场景
经典使用场景
GSM8K数据集的经典使用场景主要集中在多步推理的数学问题解答上。该数据集包含8.5K个高质量、语言多样的小学数学应用题,这些问题通常需要2到8步的推理过程来解决。通过提供自然语言的解答,GSM8K不仅测试了语言模型的数学能力,还评估了其逻辑推理和多步问题解决的能力。
解决学术问题
GSM8K数据集解决了在自然语言处理领域中,如何有效评估和提升模型在多步推理数学问题上的表现这一重要学术问题。通过提供详细的自然语言解答,该数据集为研究者提供了一个标准化的测试平台,帮助他们理解和改进大型语言模型在复杂推理任务中的表现,从而推动了相关领域的研究进展。
衍生相关工作
GSM8K数据集的发布激发了大量相关研究工作,特别是在多步推理和数学问题解答领域。许多研究者利用该数据集进行模型训练和评估,探索如何提升语言模型在复杂推理任务中的表现。此外,GSM8K还启发了在教育领域应用自然语言处理技术的研究,推动了智能教育系统和自动化评估工具的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作