five

Multilingual Grade School Math (MGSM)

收藏
arXiv2025-11-07 更新2025-11-13 收录
下载链接:
https://github.com/google-research-datasets/MGSM-Rev2
下载链接
链接失效反馈
官方服务:
资源简介:
MGSM数据集是由Google的研究团队创建的,包含250个小学数学问题,这些问题被翻译成了10种不同类型的语言。这些语言涵盖了高资源语言(如中文、德语、法语)和低资源语言(如斯瓦希里语、泰卢固语)。数据集的创建目的是为了提供一个理想的测试平台,用于评估模型在不同语言中的跨语言数学能力。数据集的大小为250条,数据来源于GSM8K数据集。创建过程包括从GSM8K数据集中选取问题并进行翻译。数据集的应用领域是自然语言处理,旨在解决模型在不同语言中的跨语言能力泛化问题。
提供机构:
Google
创建时间:
2025-11-07
原始信息汇总

MGSM-Rev2 数据集概述

数据集简介

MGSM-Rev2是Multilingual Grade School Math(MGSM)基准的修订版本,原始版本在论文《Language models are multilingual chain-of-thought reasoners》中提出。该修订版本通过纠正错误(主要是但不限于翻译不准确)改进了基线数据集。验证步骤确认修订后的问题仍可由当前大型语言模型解决。

语言覆盖

基准保持原始结构,包含250个问题,翻译为以下10种语言:

  • 西班牙语
  • 法语
  • 德语
  • 俄语
  • 中文
  • 日语
  • 泰语
  • 斯瓦希里语
  • 孟加拉语
  • 泰卢固语

数据格式

数据以TSV(制表符分隔值)文件格式提供,结构如下:

  • 第1列:问题
  • 第2列:答案

该数据格式与原MGSM数据集(https://huggingface.co/datasets/juletxara/mgsm)相同,可直接替代使用。

元数据

MGSM-Rev2/replaced_questions.json文件包含每种语言从原始数据集中替换的问题记录。注意:问题编号使用基于1的索引。

许可证

本数据集根据CC BY-SA 4.0(知识共享署名-相同方式共享4.0国际)许可证发布。

引用信息

bibtex @misc{peter2025mindgapnottranslation, title={Mind the Gap... or Not? How Translation Errors and Evaluation Details Skew Multilingual Results}, author={Jan-Thorsten Peter and David Vilar and Tobias Domhan and Dan Malkin and Markus Freitag}, year={2025}, eprint={2511.05162}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.05162}, }

@misc{shi2022languagemodelsmultilingualchainofthought, title={Language Models are Multilingual Chain-of-Thought Reasoners}, author={Freda Shi and Mirac Suzgun and Markus Freitag and Xuezhi Wang and Suraj Srivats and Soroush Vosoughi and Hyung Won Chung and Yi Tay and Sebastian Ruder and Denny Zhou and Dipanjan Das and Jason Wei}, year={2022}, eprint={2210.03057}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2210.03057}, }

@misc{cobbe2021trainingverifierssolvemath, title={Training Verifiers to Solve Math Word Problems}, author={Karl Cobbe and Vineet Kosaraju and Mohammad Bavarian and Mark Chen and Heewoo Jun and Lukasz Kaiser and Matthias Plappert and Jerry Tworek and Jacob Hilton and Reiichiro Nakano and Christopher Hesse and John Schulman}, year={2021}, eprint={2110.14168}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2110.14168}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在跨语言数学推理评估领域,MGSM数据集通过精选GSM8K英语数学题集构建而成。研究团队选取250道小学数学题目,由专业译者人工翻译为十种类型学各异的语言,涵盖高低资源语种。为确保语义对等性,翻译过程严格保持原始问题的数学逻辑结构,构建出平行语料库以支持跨语言能力对比研究。
特点
该数据集最显著的特征在于其多维度语言覆盖与严谨的数学问题设计。涵盖的十种语言既包含德语、中文等高资源语言,也纳入斯瓦希里语、泰卢固语等低资源语言,形成完整的语言资源谱系。所有问题均采用数值答案形式,确保评估结果的客观可量化。数据集特别注重文化适应性,在数字表达系统中兼容不同地区的数值分隔规范,如法语逗号小数点与德语千位分隔符的差异化处理。
使用方法
使用该数据集时需建立标准化的评估流程。研究者应向模型输入统一格式的多语言提示模板,要求模型在输出推理过程后以特定关键词标注最终答案。答案提取环节需采用语言自适应解析策略,针对不同语言的数字表达习惯设计差异化正则表达式。特别对于孟加拉语等使用非阿拉伯数字系统的语言,需建立数字符号映射机制。为确保评估公正性,建议同步实施翻译质量验证与答案格式标准化双重保障措施。
背景与挑战
背景概述
多语言小学数学数据集(MGSM)由Shi等研究人员于2022年创建,旨在评估大型语言模型在跨语言数学推理任务上的表现。该数据集源自GSM8K英语小学数学题库,通过专业翻译人员将250道数学问题转化为十种类型学各异的语言,涵盖高资源语言如德语、中文与低资源语言如孟加拉语、泰卢固语等。其核心研究目标在于探究语言模型能否实现跨语言能力迁移,即模型在英语训练中获得的数学推理能力是否能够均等地应用于其他语言场景。该数据集已成为评估多语言数学推理能力的标准基准之一,对推动语言模型的跨语言泛化研究具有重要影响力。
当前挑战
该数据集面临的双重挑战主要体现在领域问题与构建过程两个维度。在领域问题层面,多语言数学评估需要解决语言间性能差异的准确度量问题,特别是如何区分模型真实能力与数据质量导致的偏差。构建过程中的挑战则更为复杂:专业翻译仍可能引入语义偏差,如德语版本将“every second glass”误译为“每个额外玻璃杯”;答案提取缺乏标准化流程,不同语言数字格式(如法语逗号作小数点)和数字系统(如孟加拉数字)导致解析错误;原始英语问题存在歧义性,如时间单位未明确指定或逻辑表述不清晰,这些问题共同影响了评估结果的可靠性。
常用场景
解决学术问题
MGSM数据集有效解决了跨语言能力评估中的核心学术难题。该数据集通过构建平行多语言测试集,使研究者能够精确量化大语言模型在不同语言间的性能差异,从而深入探究语言资源丰富度与模型表现之间的关系。更重要的是,该数据集揭示了测试数据质量对评估结果的深远影响,促使学界重新审视多语言基准测试的构建标准,推动了包括自动质量保证方法和标准化答案提取流程在内的系统性改进方案。
衍生相关工作
MGSM数据集催生了多语言推理研究的重要分支。基于该数据集,研究者开发了多种提升跨语言性能的技术路径,包括问题翻译至英语的策略、跨语言思维链提示方法,以及针对低资源语言的指令微调技术。这些衍生工作不仅深化了我们对多语言能力迁移机制的理解,还推动了包括P-MMEval在内的新型多语言多任务基准的构建。同时,该数据集引发的数据质量讨论促进了整个领域对评估方法论的反思与改进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作