openai/gsm8k|数学应用题数据集|自然语言处理数据集
收藏数据集概述
基本信息
- 数据集名称: Grade School Math 8K (GSM8K)
- 语言: 英语
- 许可证: MIT
- 多语言性: 单语种
- 大小类别: 1K<n<10K
- 源数据集: 原始数据
- 任务类别: 文本生成
- 标签: 数学应用题
数据集配置
主配置 (main)
- 特征:
question
: 问题字符串answer
: 答案字符串
- 分割:
train
: 7473个样本, 3963202字节test
: 1319个样本, 713732字节
- 下载大小: 2725633字节
- 数据集大小: 4676934字节
苏格拉底配置 (socratic)
- 特征:
question
: 问题字符串answer
: 答案字符串
- 分割:
train
: 7473个样本, 5198108字节test
: 1319个样本, 936859字节
- 下载大小: 3164254字节
- 数据集大小: 6134967字节
数据集描述
数据集摘要
GSM8K是一个包含8.5K高质量、语言多样化的初中数学应用题数据集。该数据集旨在支持需要多步推理的基本数学问题的问答任务。
- 这些问题需要2到8步来解决。
- 解决方案主要涉及使用基本算术运算(+ − ×÷)进行一系列基本计算以达到最终答案。
- 一个聪明的初中生应该能够解决每个问题:从论文中,“问题不需要超出早期代数水平的概念,绝大多数问题可以在不明确定义变量的情况下解决。”
- 解决方案以自然语言形式提供,而不是纯数学表达式。从论文中:“我们相信这是最有用的数据格式,我们期望它能揭示大型语言模型内部独白的特性”
支持的任务和排行榜
该数据集通常用于测试语言模型中的逻辑和数学能力。它已被用于许多基准测试,包括LLM Leaderboard。
数据实例
主配置 (main)
python { question: Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?, answer: Natalia sold 48/2 = <<48/2=24>>24 clips in May. Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.
72,
}
苏格拉底配置 (socratic)
python { question: Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?, answer: How many clips did Natalia sell in May? ** Natalia sold 48/2 = <<48/2=24>>24 clips in May. How many clips did Natalia sell altogether in April and May? ** Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.
72,
}
数据字段
question
: 初中数学问题字符串answer
: 包含多步推理、计算器注释和最终数值解决方案的完整答案字符串
数据分割
名称 | 训练集 | 测试集 |
---|---|---|
main | 7473 | 1319 |
socratic | 7473 | 1319 |

中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
OMIM (Online Mendelian Inheritance in Man)
OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。
www.omim.org 收录
GHCN
GHCN(Global Historical Climatology Network)是一个全球历史气候网络数据集,包含了全球各地气象站记录的每日气象数据,如温度、降水、风速等。该数据集用于研究气候变化和天气模式。
www.ncei.noaa.gov 收录
Traditional-Chinese-Medicine-Dataset-SFT
该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。
huggingface 收录