five

mgsm

收藏
Hugging Face2025-05-05 更新2025-05-06 收录
下载链接:
https://huggingface.co/datasets/ahmedselhady/mgsm
下载链接
链接失效反馈
官方服务:
资源简介:
多语言小学数学问题基准(MGSM)是一个包含250个小学数学问题的数据集,这些问题被翻译成了10种语言,包括西班牙语、法语、德语、俄语、中文、日语、泰语、斯瓦希里语、孟加拉语和泰卢固语。每个问题都包含了详细的解题步骤和最终答案。

The Multilingual Grade School Math Benchmark (MGSM) is a dataset consisting of 250 primary school mathematics problems, which have been translated into 10 languages including Spanish, French, German, Russian, Chinese, Japanese, Thai, Swahili, Bengali, and Telugu. Each problem includes detailed problem-solving steps and a final answer.
创建时间:
2025-05-05
原始信息汇总

Multilingual Grade School Math Benchmark (MGSM) 数据集概述

数据集描述

  • 主页: https://openai.com/blog/grade-school-math/
  • 代码库: https://github.com/openai/grade-school-math
  • 论文: https://arxiv.org/abs/2110.14168
  • 联系人: [无信息]
  • 许可证: MIT License

数据集摘要

MGSM 是一个多语言的小学数学问题基准数据集,源自论文《Language models are multilingual chain-of-thought reasoners》。数据集包含来自 GSM8K 的 250 个问题,并由人工翻译为 10 种语言。GSM8K 是一个包含 8.5K 个高质量、语言多样的小学数学文字问题的数据集,旨在支持需要多步推理的数学问题解答任务。

数据集结构

数据实例

  • 训练集:

    • question: 小学数学问题字符串
    • answer: 包含逐步推理的解答字符串
    • answer_number: 问题的数字解答
    • equation_solution: 问题的方程解答
  • 测试集:

    • question: 小学数学问题字符串
    • answer_number: 问题的数字解答

数据字段

  • question: 问题字符串
  • answer: 解答字符串(包含逐步推理)
  • answer_number: 数字解答
  • equation_solution: 方程解答

数据划分

  • 训练集: 每种语言包含 8 个示例
  • 测试集: 每种语言包含 250 个问题
语言 训练集示例数 测试集示例数
en 8 250
es 8 250
fr 8 250
de 8 250
ru 8 250
zh 8 250
ja 8 250
th 8 250
sw 8 250
bn 8 250
te 8 250

语言支持

数据集支持以下语言:

  • 英语 (en)
  • 西班牙语 (es)
  • 法语 (fr)
  • 德语 (de)
  • 俄语 (ru)
  • 中文 (zh)
  • 日语 (ja)
  • 泰语 (th)
  • 斯瓦希里语 (sw)
  • 孟加拉语 (bn)
  • 泰卢固语 (te)

引用信息

bibtex @article{cobbe2021gsm8k, title={Training Verifiers to Solve Math Word Problems}, author={Cobbe, Karl and Kosaraju, Vineet and Bavarian, Mohammad and Chen, Mark and Jun, Heewoo and Kaiser, Lukasz and Plappert, Matthias and Tworek, Jerry and Hilton, Jacob and Nakano, Reiichiro and Hesse, Christopher and Schulman, John}, journal={arXiv preprint arXiv:2110.14168}, year={2021} } @misc{shi2022language, title={Language Models are Multilingual Chain-of-Thought Reasoners}, author={Freda Shi and Mirac Suzgun and Markus Freitag and Xuezhi Wang and Suraj Srivats and Soroush Vosoughi and Hyung Won Chung and Yi Tay and Sebastian Ruder and Denny Zhou and Dipanjan Das and Jason Wei}, year={2022}, eprint={2210.03057}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总
数据集介绍
main_image_url
构建方式
MGSM数据集作为多语言小学数学基准测试集,其构建过程体现了严谨的学术规范。该数据集以GSM8K的250道数学应用题为基础,通过专业人工翻译团队将其精准转化为10种语言版本。源数据经过两轮质量校验流程,先由Surge AI平台标注员独立复算验证答案一致性,再通过抽样检查确保题目无歧义,最终错误率控制在1.7%以内。数据集包含8个训练样本和250个测试样本的标准化结构设计,每个样本均包含问题描述、分步解答、数值答案及方程式四重验证维度。
使用方法
研究者可通过HuggingFace平台直接加载各语言版本的TSV格式数据,利用内置的train-test划分开展实验。针对多语言数学推理任务,建议结合数据集提供的few-shot示例模板进行提示学习。评估时应重点关注模型在未见过语言上的泛化能力,通过对比数值答案与方程式结果的双重验证确保推理可靠性。该数据集特别适合用于测试大语言模型在跨语言场景下的思维链推理能力,相关实验结果可引用原始论文提供的标准评估协议。
背景与挑战
背景概述
Multilingual Grade School Math Benchmark (MGSM) 数据集由OpenAI等研究机构于2022年提出,旨在构建一个多语言的小学数学问题求解基准。该数据集基于GSM8K数据集扩展而来,通过人工翻译将250道数学应用题转化为包括英语、西班牙语、中文等在内的10种语言版本。MGSM的核心研究问题是探索语言模型在多语言环境下的数学推理能力,特别是链式思维(chain-of-thought)推理能力。该数据集为多语言自然语言处理研究提供了重要资源,推动了跨语言数学问题求解领域的发展。
当前挑战
MGSM数据集面临的挑战主要体现在两个方面:领域问题方面,多语言数学问题求解需要模型具备跨语言理解和数学推理的双重能力,这对现有自然语言处理技术提出了较高要求;数据构建方面,确保不同语言版本数学问题的准确性和一致性是主要难点,尤其是在涉及文化差异的语境转换过程中。此外,数据规模相对有限,覆盖的语言多样性仍有提升空间,这对模型的泛化能力评估带来一定限制。
常用场景
经典使用场景
在自然语言处理领域,MGSM数据集常被用于评估多语言模型在解决小学数学问题上的能力。该数据集通过提供多种语言的数学问题及其解答,为研究者提供了一个标准化的测试平台,用以衡量模型在多语言环境下的推理和计算能力。特别是在研究链式思维推理(Chain-of-Thought Reasoning)时,MGSM因其丰富的语言覆盖和高质量的问题设计而成为首选基准。
解决学术问题
MGSM数据集主要解决了多语言环境下数学问题求解的标准化评估问题。通过提供10种语言的250个数学问题及其详细解答,该数据集填补了多语言数学推理研究的数据空白。其意义在于为跨语言模型性能比较提供了统一尺度,并推动了链式思维推理技术在非英语语境中的应用研究,对提升教育科技产品的多语言适配性具有重要价值。
实际应用
在实际应用中,MGSM数据集被广泛用于开发智能教育辅助系统。基于该数据集训练的模型可以支持多语言数学辅导应用的开发,帮助不同语言背景的学生理解数学问题并获取解题指导。此外,该数据集也被用于优化搜索引擎的数学问题解答功能,使多语言用户能够更便捷地获取精确的数学问题解决方案。
数据集最近研究
最新研究方向
在自然语言处理领域,多语言数学推理能力正成为研究热点。MGSM数据集作为多语言小学数学基准测试,为探索大语言模型在多语言环境下的数学推理能力提供了重要平台。最新研究聚焦于跨语言迁移学习,探索模型在不同语言间数学问题解决能力的泛化性。随着多模态大模型的兴起,如何将视觉信息与多语言数学问题相结合,提升模型的综合理解能力成为前沿方向。该数据集还被广泛应用于评估模型的链式推理能力,特别是在低资源语言环境下的表现,为缩小数字鸿沟提供了技术支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作