juletxara/mgsm_mt
收藏Hugging Face2023-07-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/juletxara/mgsm_mt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要用于文本生成任务,特别是数学应用题。数据集是多语言的,包含西班牙语、法语、德语、俄语、中文、日语、泰语、斯瓦希里语、孟加拉语和泰卢固语等多种语言的示例。数据集属于多任务语言理解任务,特别是针对MGSM(多语言小学数学基准)的任务。数据集包含多种配置,具有不同的模型大小和特征,如问题、答案、答案编号和方程解。
该数据集主要用于文本生成任务,特别是数学应用题。数据集是多语言的,包含西班牙语、法语、德语、俄语、中文、日语、泰语、斯瓦希里语、孟加拉语和泰卢固语等多种语言的示例。数据集属于多任务语言理解任务,特别是针对MGSM(多语言小学数学基准)的任务。数据集包含多种配置,具有不同的模型大小和特征,如问题、答案、答案编号和方程解。
提供机构:
juletxara
原始信息汇总
数据集概述
基本信息
- 数据集名称: Multilingual Grade School Math Benchmark (MGSM)
- 语言: 英语
- 许可证: CC BY-SA 4.0
- 多语言性: 单语种
- 数据集大小: 1K < n < 10K
- 源数据集: 扩展自 gsm8k
- 任务类别: 文本生成
- 标签: 数学应用题
数据集配置
配置名称: nllb-200-distilled-600M
- 特征:
- question: 字符串
- answer: 字符串
- answer_number: 32位整数
- equation_solution: 字符串
- 分割:
- es: 56237 字节, 250 示例
- fr: 55054 字节, 250 示例
- de: 58288 字节, 250 示例
- ru: 52498 字节, 250 示例
- zh: 55255 字节, 250 示例
- ja: 44046 字节, 250 示例
- th: 51445 字节, 250 示例
- sw: 50844 字节, 250 示例
- bn: 46158 字节, 250 示例
- te: 49928 字节, 250 示例
- train: 2682 字节, 8 示例
- 下载大小: 495413 字节
- 数据集大小: 522435 字节
配置名称: nllb-200-distilled-1.3B
- 特征:
- question: 字符串
- answer: 字符串
- answer_number: 32位整数
- equation_solution: 字符串
- 分割:
- es: 61011 字节, 250 示例
- fr: 60127 字节, 250 示例
- de: 61658 字节, 250 示例
- ru: 58766 字节, 250 示例
- zh: 55451 字节, 250 示例
- ja: 51409 字节, 250 示例
- th: 49158 字节, 250 示例
- sw: 57085 字节, 250 示例
- bn: 54208 字节, 250 示例
- te: 52710 字节, 250 示例
- train: 2682 字节, 8 示例
- 下载大小: 537237 字节
- 数据集大小: 564265 字节
配置名称: nllb-200-1.3B
- 特征:
- question: 字符串
- answer: 字符串
- answer_number: 32位整数
- equation_solution: 字符串
- 分割:
- es: 60524 字节, 250 示例
- fr: 59673 字节, 250 示例
- de: 60375 字节, 250 示例
- ru: 57837 字节, 250 示例
- zh: 58165 字节, 250 示例
- ja: 58423 字节, 250 示例
- th: 51044 字节, 250 示例
- sw: 58507 字节, 250 示例
- bn: 53901 字节, 250 示例
- te: 51593 字节, 250 示例
- train: 2682 字节, 8 示例
- 下载大小: 545702 字节
- 数据集大小: 572724 字节
配置名称: nllb-200-3.3B
- 特征:
- question: 字符串
- answer: 字符串
- answer_number: 32位整数
- equation_solution: 字符串
- 分割:
- es: 62012 字节, 250 示例
- fr: 60219 字节, 250 示例
- de: 61821 字节, 250 示例
- ru: 58382 字节, 250 示例
- zh: 58931 字节, 250 示例
- ja: 58752 字节, 250 示例
- th: 57139 字节, 250 示例
- sw: 60391 字节, 250 示例
- bn: 55057 字节, 250 示例
- te: 54888 字节, 250 示例
- train: 2682 字节, 8 示例
- 下载大小: 563242 字节
- 数据集大小: 590274 字节
配置名称: xglm-564M
- 特征:
- question: 字符串
- answer: 字符串
- answer_number: 32位整数
- equation_solution: 字符串
- 分割:
- es: 42608 字节, 250 示例
- fr: 45691 字节, 250 示例
- de: 51470 字节, 250 示例
- ru: 60715 字节, 250 示例
- zh: 45629 字节, 250 示例
- ja: 43786 字节, 250 示例
- th: 35269 字节, 250 示例
- sw: 37892 字节, 250 示例
- bn: 51002 字节, 250 示例
- te: 98158 字节, 250 示例
- train: 2682 字节, 8 示例
- 下载大小: 487886 字节
- 数据集大小: 514902 字节
配置名称: xglm-1.7B
- 特征:
- question: 字符串
- answer: 字符串
- answer_number: 32位整数
- equation_solution: 字符串
- 分割:
- es: 59727 字节, 250 示例
- fr: 59811 字节, 250 示例
- de: 60222 字节, 250 示例
- ru: 58039 字节, 250 示例
- zh: 44307 字节, 250 示例
- ja: 40936 字节, 250 示例
- th: 44383 字节, 250 示例
- sw: 53708 字节, 250 示例
- bn: 76978 字节, 250 示例
- te: 56112 字节, 250 示例
- train: 2682 字节, 8 示例
- 下载大小: 529882 字节
- 数据集大小: 556905 字节
配置名称: xglm-2.9B
- 特征:
- question: 字符串
- answer: 字符串
- answer_number: 32位整数
- equation_solution: 字符串
- 分割:
- es: 60811 字节, 250 示例
- fr: 58777 字节, 250 示例
- de: 60297 字节, 250 示例
- ru: 58133 字节, 250 示例
- zh: 43453 字节, 250 示例
- ja: 48201 字节, 250 示例
- th: 39620 字节, 250 示例
- sw: 56296 字节, 250 示例
- bn: 50937 字节, 250 示例
- te: 46948 字节, 250 示例
- train: 2682 字节, 8 示例
- 下载大小: 499131 字节
- 数据集大小: 526155 字节
配置名称: xglm-4.5B
- 特征:
- question: 字符串
- answer: 字符串
- answer_number: 32位整数
- equation_solution: 字符串
- 分割:
- es: 68793 字节, 250 示例
- fr: 68088 字节, 250 示例
- de: 76522 字节, 250 示例
- ru: 63439 字节, 250 示例
- zh: 58577 字节, 250 示例
- ja: 56872 字节, 250 示例
- th: 58692 字节, 250 示例
- sw: 72348 字节, 250 示例
- bn: 63835 字节, 250 示例
- te: 58979 字节, 250 示例
- train: 2682 字节, 8 示例
- 下载大小: 621817 字节
- 数据集大小: 648827 字节
配置名称: xglm-7.5B
- 特征:
- question: 字符串
- answer: 字符串
- answer_number: 32位整数
- equation_solution: 字符串
- 分割:
- es: 56510 字节, 250 示例
- fr: 56170 字节, 250 示例
- de: 56587 字节, 250 示例
- ru: 55870 字节, 250 示例
- zh: 53385 字节, 250 示例
- ja: 51831 字节, 250 示例
- th: 49858 字节, 250 示例
- sw: 55484 字节, 250 示例
- bn: 51975 字节, 250 示例
- te: 51737 字节, 250 示例
- train: 2682 字节, 8 示例
- 下载大小: 515073 字节
- 数据集大小: 542089 字节
配置名称: bloom-560m
- 特征:
- question: 字符串
- answer: 字符串
- answer_number: 32位整数
- equation_solution: 字符串
- 分割:
- es: 47987 字节, 250 示例
- fr: 43992 字节, 250 示例
- de: 56995 字节, 250 示例
- ru: 72240 字节, 250 示例
- zh: 61450 字节, 250 示例
- ja: 73445 字节, 250 示例
- th: 180123 字节, 250 示例
- sw: 50369 字节, 250 示例
- bn: 86465 字节, 250 示例
- te: 75244 字节, 250 示例
- train: 2682 字节, 8 示例
- 下载大小: 724012 字节
- 数据集大小: 750992 字节
配置名称: bloom-1b1
- 特征:
- question: 字符串
- answer: 字符串
- answer_number: 32位整数
- equation_solution: 字符串
- 分割:
- es: 56625 字节, 250 示例
- fr: 53998 字节, 250 示例
- de: 56874 字节, 250 示例
- ru: 32323 字节, 250 示例
- zh: 50902 字节, 250 示例
- ja: 38347 字节, 250 示例
- th: 20754 字节, 250 示例
- sw: 27779 字节, 250 示例
- bn: 34663 字节, 250 示例
- te: 24958 字节, 250 示例
- train: 2682 字节, 8 示例
- 下载大小: 372897 字节
- 数据集大小: 399905 字节
配置名称: bloom-1b7
- 特征:
- question: 字符串
- answer: 字符串
- answer_number: 32位整数
- equation_solution: 字符串
- 分割:
- es: 44595 字节, 250 示例
- fr: 48809 字节, 250 示例
- de: 57435 字节, 250 示例
- ru: 45954 字节, 250 示例
- zh: 47375 字节, 250 示例
- ja: 51493 字节, 250 示例
- th: 24154 字节, 250 示例
- sw: 4155
搜集汇总
数据集介绍

构建方式
在数学问题求解领域,多语言数据集对于评估模型的跨语言推理能力至关重要。MGSM数据集以GSM8K为基础,通过专家生成与自动翻译相结合的方式,将原始的英语小学数学应用题扩展至西班牙语、法语、德语、俄语、中文、日语、泰语、斯瓦希里语、孟加拉语和泰卢固语等十种语言。每种语言配置均包含250个测试样本,并辅以少量训练示例,确保了数据在语言多样性与数学逻辑复杂性之间的平衡。构建过程中注重问题表述的自然性与文化适应性,为多语言数学推理任务提供了高质量的基准资源。
特点
该数据集的核心特征在于其广泛的多语言覆盖与统一的数学问题框架。涵盖十种语言,每种语言均包含相同数量的应用题,确保了跨语言评估的公平性。数据集提供了问题文本、数值答案、方程解等多种标注形式,支持从简单答案提取到复杂分步推理的多样化任务需求。配置上集成了多种主流大语言模型的不同规模版本,如NLLB、XGLM、BLOOM、LLaMA等,便于研究者对比不同模型在数学推理任务上的多语言表现。这种设计使得数据集不仅能评估模型的数学能力,还能深入探究其语言理解与迁移学习的潜力。
使用方法
使用该数据集时,研究者可通过Hugging Face平台便捷加载特定语言与模型配置的数据分片。数据集适用于文本到文本生成任务,典型流程包括将问题文本输入模型,并期望模型输出最终答案或完整的解题方程。评估时,可计算模型输出答案与标注数值答案的匹配精度,以此衡量模型的数学推理准确性。由于数据集提供了多种模型生成的翻译版本,建议进行跨配置对比实验,以分析不同翻译质量或模型规模对下游任务性能的影响。该资源为开发与评估面向全球用户的数学教育辅助工具提供了关键测试平台。
背景与挑战
背景概述
在自然语言处理领域,数学推理能力是衡量模型智能水平的关键维度之一。Multilingual Grade School Math Benchmark (MGSM) 数据集由研究人员于2022年构建,旨在评估大型语言模型在跨语言数学问题求解中的表现。该数据集基于GSM8K扩展而来,覆盖了西班牙语、法语、德语、俄语、中文、日语、泰语、斯瓦希里语、孟加拉语和泰卢固语等十种语言,每个语言包含250个小学数学应用题。其核心研究问题聚焦于探索模型在低资源语言环境下的数学推理泛化能力,为多语言模型的公平性评估提供了重要基准,推动了语言模型在教育和跨文化应用中的发展。
当前挑战
MGSM数据集致力于解决多语言数学问题求解的挑战,其核心在于模型需同时处理语言差异与数学逻辑推理。具体挑战包括:在领域问题层面,模型必须克服低资源语言的语义理解障碍,并准确解析跨文化语境下的数学表述;在构建过程中,数据集的创建面临高质量多语言数据稀缺的难题,需要依赖专家生成与现有资源的整合,确保翻译后的数学问题保持原意的精确性与逻辑一致性,同时平衡各语言样本的多样性与复杂性。
常用场景
经典使用场景
在自然语言处理领域,多语言数学推理能力的评估是衡量模型跨语言泛化性能的关键环节。MGSM数据集作为GSM8K的多语言扩展版本,其经典使用场景在于为大规模语言模型提供标准化的数学应用题基准测试。研究者通过该数据集能够系统评估模型在西班牙语、法语、德语、中文等十种语言中解决小学数学问题的能力,尤其关注模型从英语到其他语言的零样本迁移表现。这种多语言评估框架为理解模型的语言内部表示与数学推理的交互机制提供了重要实验平台。
衍生相关工作
围绕MGSM数据集衍生的经典研究工作主要集中在多语言推理模型的架构创新与评估方法拓展。例如,研究者基于该数据集提出了跨语言思维链提示技术,显著提升了模型在低资源语言上的数学推理性能。同时,该数据集催生了针对多语言数学问题求解的微调策略研究,如语言适配器与参数高效微调方法的结合应用。这些工作不仅推动了多语言推理模型的技术发展,还促进了跨语言评估协议的标准化,为后续的多模态数学推理数据集构建提供了方法论借鉴。
数据集最近研究
最新研究方向
在数学推理与多语言自然语言处理交叉领域,MGSM数据集作为多语言小学数学基准,正推动前沿研究聚焦于大规模语言模型的跨语言数学问题求解能力。当前热点探索模型在低资源语言如斯瓦希里语、泰卢固语上的泛化性能,并借助思维链提示等策略提升推理透明度。该数据集通过整合多种预训练模型配置,为评估多语言数学理解中的语言迁移与知识对齐提供了关键基准,对促进教育公平与全球化AI应用具有深远意义。
以上内容由遇见数据集搜集并总结生成



