five

openai/gsm8k|数学应用题数据集|自然语言处理数据集

收藏
hugging_face2024-01-04 更新2024-06-15 收录
数学应用题
自然语言处理
下载链接:
https://hf-mirror.com/datasets/openai/gsm8k
下载链接
链接失效反馈
资源简介:
GSM8K(Grade School Math 8K)是一个包含8.5K高质量、语言多样的小学数学文字问题的数据集。该数据集旨在支持需要多步推理的基本数学问题的问答任务。问题通常需要2到8步来解决,主要涉及使用基本算术运算(+ − ×÷)进行一系列基本计算。数据集中的问题难度适合中学生解决,且大多数问题无需明确定义变量即可解决。解决方案以自然语言形式提供,而非纯数学表达式。数据集包含两个配置:main和socratic,分别提供不同形式的答案。数据集的结构包括问题字符串和包含多步推理的答案字符串。数据集的创建过程涉及通过众包平台收集和验证问题。
提供机构:
openai
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Grade School Math 8K (GSM8K)
  • 语言: 英语
  • 许可证: MIT
  • 多语言性: 单语种
  • 大小类别: 1K<n<10K
  • 源数据集: 原始数据
  • 任务类别: 文本生成
  • 标签: 数学应用题

数据集配置

主配置 (main)

  • 特征:
    • question: 问题字符串
    • answer: 答案字符串
  • 分割:
    • train: 7473个样本, 3963202字节
    • test: 1319个样本, 713732字节
  • 下载大小: 2725633字节
  • 数据集大小: 4676934字节

苏格拉底配置 (socratic)

  • 特征:
    • question: 问题字符串
    • answer: 答案字符串
  • 分割:
    • train: 7473个样本, 5198108字节
    • test: 1319个样本, 936859字节
  • 下载大小: 3164254字节
  • 数据集大小: 6134967字节

数据集描述

数据集摘要

GSM8K是一个包含8.5K高质量、语言多样化的初中数学应用题数据集。该数据集旨在支持需要多步推理的基本数学问题的问答任务。

  • 这些问题需要2到8步来解决。
  • 解决方案主要涉及使用基本算术运算(+ − ×÷)进行一系列基本计算以达到最终答案。
  • 一个聪明的初中生应该能够解决每个问题:从论文中,“问题不需要超出早期代数水平的概念,绝大多数问题可以在不明确定义变量的情况下解决。”
  • 解决方案以自然语言形式提供,而不是纯数学表达式。从论文中:“我们相信这是最有用的数据格式,我们期望它能揭示大型语言模型内部独白的特性”

支持的任务和排行榜

该数据集通常用于测试语言模型中的逻辑和数学能力。它已被用于许多基准测试,包括LLM Leaderboard

数据实例

主配置 (main)

python { question: Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?, answer: Natalia sold 48/2 = <<48/2=24>>24 clips in May. Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.

72,

}

苏格拉底配置 (socratic)

python { question: Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?, answer: How many clips did Natalia sell in May? ** Natalia sold 48/2 = <<48/2=24>>24 clips in May. How many clips did Natalia sell altogether in April and May? ** Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.

72,

}

数据字段

  • question: 初中数学问题字符串
  • answer: 包含多步推理、计算器注释和最终数值解决方案的完整答案字符串

数据分割

名称 训练集 测试集
main 7473 1319
socratic 7473 1319
AI搜集汇总
数据集介绍
main_image_url
构建方式
GSM8K数据集通过众包方式构建,由Surge AI平台协助收集和标注。初始阶段,通过雇佣自由职业者在Upwork平台上收集了1000个问题及其自然语言解答。随后,利用Surge AI平台扩展数据集,确保每个问题都经过重新解答和验证,以消除错误和歧义。最终,数据集包含8.5K个高质量、语言多样的小学数学应用题,涵盖2到8步的多步推理问题。
特点
GSM8K数据集的主要特点在于其问题和解答均以自然语言形式呈现,而非纯数学表达式。每个问题需要多步推理,涉及基本的算术运算。数据集分为两个配置:`main`和`socratic`,后者在解答中包含额外的苏格拉底式子问题,进一步增强了推理的复杂性。数据集的语言为英语,适用于测试语言模型在逻辑和数学推理方面的能力。
使用方法
GSM8K数据集可用于训练和评估语言模型在小学数学应用题上的表现。用户可以通过HuggingFace的Datasets库加载数据集,并根据需要选择`main`或`socratic`配置。数据集的每个实例包含一个数学问题及其多步推理的解答,适合用于文本生成任务。通过分析模型生成的解答,可以评估其在多步推理和自然语言理解方面的能力。
背景与挑战
背景概述
GSM8K(Grade School Math 8K)数据集由OpenAI于2021年发布,旨在支持多步推理的数学问题解答任务。该数据集包含了8.5K个高质量、语言多样化的中小学数学应用题,涵盖了从2到8步的解题步骤。这些问题主要涉及基本的算术运算,适合中学生水平的学生解答。GSM8K的创建不仅为语言模型在数学推理能力上的评估提供了基准,还通过自然语言形式的解答,揭示了大规模语言模型内部推理过程的特性。
当前挑战
GSM8K数据集的主要挑战在于其复杂的多步推理需求,这要求模型不仅能够理解问题,还需具备逐步推理的能力。构建过程中,数据集的创建者通过雇佣自由职业者和使用Surge AI平台进行数据标注,确保了数据的多样性和质量。然而,数据集仍存在1.7%的问题可能包含错误或歧义,这表明在数据质量控制方面仍有改进空间。此外,如何有效训练模型以处理这些多步推理问题,也是当前研究中的一个重要挑战。
常用场景
经典使用场景
GSM8K数据集的经典使用场景主要集中在多步推理的数学问题解答上。该数据集包含8.5K个高质量、语言多样的小学数学应用题,这些问题通常需要2到8步的推理过程来解决。通过提供自然语言的解答,GSM8K不仅测试了语言模型的数学能力,还评估了其逻辑推理和多步问题解决的能力。
解决学术问题
GSM8K数据集解决了在自然语言处理领域中,如何有效评估和提升模型在多步推理数学问题上的表现这一重要学术问题。通过提供详细的自然语言解答,该数据集为研究者提供了一个标准化的测试平台,帮助他们理解和改进大型语言模型在复杂推理任务中的表现,从而推动了相关领域的研究进展。
衍生相关工作
GSM8K数据集的发布激发了大量相关研究工作,特别是在多步推理和数学问题解答领域。许多研究者利用该数据集进行模型训练和评估,探索如何提升语言模型在复杂推理任务中的表现。此外,GSM8K还启发了在教育领域应用自然语言处理技术的研究,推动了智能教育系统和自动化评估工具的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

GHCN

GHCN(Global Historical Climatology Network)是一个全球历史气候网络数据集,包含了全球各地气象站记录的每日气象数据,如温度、降水、风速等。该数据集用于研究气候变化和天气模式。

www.ncei.noaa.gov 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录