yuntian-deng/mgsm
收藏数据集概述
数据集名称
Multilingual Grade School Math Benchmark (MGSM)
数据集简介
MGSM 是一个包含小学数学问题的基准数据集,包含250个问题,这些问题被翻译成10种语言。原始数据集 GSM8K 包含8.5K个高质量、语言多样的小学数学问题,支持多步推理的问答任务。
支持的语言
- 英语 (en)
- 西班牙语 (es)
- 法语 (fr)
- 德语 (de)
- 俄语 (ru)
- 中文 (zh)
- 日语 (ja)
- 泰语 (th)
- 斯瓦希里语 (sw)
- 孟加拉语 (bn)
数据集结构
数据实例
- 训练集:每个实例包含以下字段:
question:小学数学问题answer:包含多步推理的完整解答answer_number:问题的数值解答equation_solution:问题的方程解答
- 测试集:每个实例包含以下字段:
question:小学数学问题answer_number:问题的数值解答
数据字段
question:小学数学问题answer:包含多步推理的完整解答answer_number:问题的数值解答equation_solution:问题的方程解答
数据分割
- 训练集:每个语言包含8个实例
- 测试集:每个语言包含250个实例
数据集创建
数据来源
- 原始数据集 GSM8K 由 Upwork 和 Surge AI 收集和标注
标注过程
- 标注由 Surge AI 完成
许可证
- 数据集使用 CC-BY-SA-4.0 许可证
引用信息
bibtex @article{cobbe2021gsm8k, title={Training Verifiers to Solve Math Word Problems}, author={Cobbe, Karl and Kosaraju, Vineet and Bavarian, Mohammad and Chen, Mark and Jun, Heewoo and Kaiser, Lukasz and Plappert, Matthias and Tworek, Jerry and Hilton, Jacob and Nakano, Reiichiro and Hesse, Christopher and Schulman, John}, journal={arXiv preprint arXiv:2110.14168}, year={2021} } @misc{shi2022language, title={Language Models are Multilingual Chain-of-Thought Reasoners}, author={Freda Shi and Mirac Suzgun and Markus Freitag and Xuezhi Wang and Suraj Srivats and Soroush Vosoughi and Hyung Won Chung and Yi Tay and Sebastian Ruder and Denny Zhou and Dipanjan Das and Jason Wei}, year={2022}, eprint={2210.03057}, archivePrefix={arXiv}, primaryClass={cs.CL} }




