meta-math/GSM8K_zh|数学推理数据集|中文数学问答数据集

hugging_face2023-12-04 更新2024-03-04 收录

数学推理

中文数学问答

下载链接：

https://hf-mirror.com/datasets/meta-math/GSM8K_zh

下载链接

链接失效反馈

资源简介：

GSM8K_zh是一个专门为数学推理设计的中文数据集，包含了从英文数据集GSM8K翻译过来的问题和答案。该数据集由7473个训练样本和1319个测试样本组成，分别用于监督微调和模型评估。训练样本包含完整的问题和答案，而测试样本仅提供翻译后的问题。此数据集适用于中文和英文的问题回答任务，特别是数学问题回答。

提供机构：

meta-math

原始信息汇总

数据集概述

基本信息

许可证：MIT
任务类别：问答
语言：英语、中文
标签：数学、数学问答、中文数学问答
规模：n<1K

数据集描述

名称：GSM8K_zh
描述：GSM8K_zh是一个用于中文数学推理的数据集，问题-答案对由GSM8K数据集（https://github.com/openai/grade-school-math/tree/master）通过GPT-3.5-Turbo进行少量提示翻译得到。
样本数量：包含7473个训练样本和1319个测试样本。训练样本用于监督微调，测试样本用于评估。
样本结构：
- 训练样本：包含question_zh（问题）和answer_zh（答案）键。
- 测试样本：仅提供翻译后的问题（question_zh）。

引用

文献： bibtex @article{yu2023metamath, title={MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models}, author={Yu, Longhui and Jiang, Weisen and Shi, Han and Yu, Jincheng and Liu, Zhengying and Zhang, Yu and Kwok, James T and Li, Zhenguo and Weller, Adrian and Liu, Weiyang}, journal={arXiv preprint arXiv:2309.12284}, year={2023} }

AI搜集汇总

数据集介绍

构建方式

GSM8K_zh数据集是通过将GSM8K数据集中的问题和答案对翻译成中文构建而成。具体而言，该数据集利用GPT-3.5-Turbo模型进行少样本提示翻译，确保了翻译的准确性和自然性。数据集包含7473个训练样本和1319个测试样本，分别用于监督微调和模型评估。训练样本中包含问题和答案的对应关系，而测试样本仅提供翻译后的问题，以便进行独立评估。

特点

GSM8K_zh数据集的主要特点在于其专注于中文环境下的数学推理任务，填补了中文数学问答数据集的空白。数据集的翻译过程采用了先进的GPT-3.5-Turbo模型，确保了翻译质量的高标准。此外，数据集的结构设计合理，训练和测试样本的划分清晰，便于模型在不同阶段进行有效的学习和评估。

使用方法

GSM8K_zh数据集适用于需要在中文环境下进行数学推理任务的模型训练和评估。用户可以利用训练样本进行监督微调，以提升模型在中文数学问题上的表现。测试样本则可用于评估模型的实际推理能力，确保模型在真实场景中的应用效果。数据集的结构清晰，使用便捷，适合各类研究者和开发者进行相关实验和应用开发。

背景与挑战

背景概述

数学推理在人工智能领域中占据着举足轻重的地位，尤其是在自然语言处理和教育科技的交叉领域。`GSM8K_zh`数据集应运而生，旨在为中文环境下的数学问题解答提供高质量的训练和测试资源。该数据集由`GPT-3.5-Turbo`通过少样本提示技术从英文原版GSM8K数据集翻译而来，涵盖了7473个训练样本和1319个测试样本。主要研究人员包括Yu Longhui等人，他们的研究成果发表于2023年的预印本，题为《MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models》。该数据集的推出，不仅丰富了中文数学推理的数据资源，也为大语言模型在中文数学教育中的应用提供了新的可能性。

当前挑战

尽管`GSM8K_zh`数据集在中文数学推理领域具有重要意义，但其构建过程中仍面临诸多挑战。首先，翻译质量直接影响数据集的有效性，如何确保翻译的准确性和自然性是一个关键问题。其次，少样本提示技术虽然提高了翻译效率，但也可能引入不确定性，影响模型的训练效果。此外，数据集的规模相对较小，如何在有限的样本中提取出有效的训练特征，也是一个亟待解决的问题。最后，该数据集的应用场景主要集中在教育领域，如何确保其在实际教学中的有效性和适用性，仍需进一步的研究和验证。

常用场景

经典使用场景

GSM8K_zh数据集在数学推理领域中具有经典的使用场景，主要用于中文环境下的数学问答任务。该数据集通过GPT-3.5-Turbo模型将原始的GSM8K数据集翻译为中文，提供了丰富的训练和测试样本，特别适用于监督微调（supervised fine-tuning）和模型评估。

实际应用

在实际应用中，GSM8K_zh数据集可广泛应用于教育技术、智能辅导系统及自动化考试评估等领域。通过提供准确的中文数学问答解决方案，该数据集能够帮助开发更智能、更高效的教育工具，提升学生的学习体验和教师的教学效率。

衍生相关工作

GSM8K_zh数据集的发布激发了大量相关研究工作，特别是在中文数学推理和跨语言问答系统领域。研究者们基于此数据集开发了多种模型和算法，进一步推动了中文数学问答技术的发展，同时也为跨语言知识迁移和模型泛化能力研究提供了宝贵的资源。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Apron Dataset

该数据集专注于训练和评估机场停机坪物流的分类和检测模型。数据集包含详细的图像数据和标注，支持43个类别的精细标注，并提供了多种变体以适应不同的目标数据集。

github 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey（CHNS）是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目，旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响，以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体，采用多阶段随机抽样方法，收集了家庭、个体以及社区层面的详细数据，包括饮食、健康、经济和社会因素等信息。自2011年起，CHNS不断扩展，新增多个城市和省份，并持续完善纵向数据链接，为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

全球1km分辨率大气二氧化碳浓度数据集（2003-2023）

持续增加的人为CO₂排放导致了全球变暖和气候变化，进而引发了全球范围的重大环境、经济和健康损失，基于卫星遥感数据准确连续地监测大气CO₂变化对于理解全球碳循环、评估碳源和碳汇的分布以及制定有效的减排政策至关重要。大气CO2柱浓度（XCO2）指从地表到大气顶层干燥空气柱中CO2的平均体积比，是用来表征大气中CO2分子含量的物理量。当前已公开发表的全球无缝XCO2产品存在无法同时提供长时间跨度和高时空分辨率的问题，限制了其更为广泛的科学应用。本数据集基于来自SCIAMACHY、GOSAT 和 OCO-2 三颗卫星/传感器的XCO2观测数据进行二次研发，以卫星XCO2观测数据为训练标签，与 CO₂ 排放、吸收和传输相关的多源因素为解释变量，利用整合了U-Net网络和ConvLSTM网络的深度学习算法构建预测模型，生成了国际首套2003-2023年全球时空连续1公里分辨率逐日XCO2数据集。经全球27个TCCON地面观测站点的验证，结果表明该产品具有较好的精度（决定系数R2为0.989，均方根误差RMSE为1.021ppm）。本数据集为深化对全球碳循环的理解、评估减排政策以及应对气候变化挑战提供了重要的基础数据。

国家青藏高原科学数据中心收录

大学生运动和体质健康数据集（2014-2023）

《大学生运动与体质健康数据集（2014-2023）》涵盖了大学生群体在运动能力、基础身体形态、身体机能及身体素质等多个方面的关键基础数据。该数据集的采集时间跨度为2014年至2023年，样本采集自全国34个省级行政区域，共计123281名大学生参与，平均年龄为20.53岁。建立大学生运动和体质健康数据集可以准确把握学生体质健康的整体水平和变化趋势，了解大学生运动和体质健康状况，对指导个性化健康干预、优化体育教育资源配置、支持促进科学研究以及提高公众健康意识等均具有重要意义。

国家人口健康科学数据中心收录

IVLLab/MultiDialog

该数据集包含手动注释的元数据，将音频文件与转录、情感和其他属性链接起来。数据集支持多种任务，包括多模态对话生成、自动语音识别和文本到语音转换。数据集的语言为英语，并提供了一个黄金情感对话子集，用于研究对话中的情感动态。数据集的结构包括音频文件、对话ID、话语ID、来源、音频特征、转录文本、情感标签和原始路径等信息。

hugging_face 收录