mgsm
收藏Multilingual Grade School Math Benchmark (MGSM) 数据集概述
数据集描述
- 主页: https://openai.com/blog/grade-school-math/
- 代码库: https://github.com/openai/grade-school-math
- 论文: https://arxiv.org/abs/2110.14168
- 联系人: [无信息]
- 许可证: MIT License
数据集摘要
MGSM 是一个多语言的小学数学问题基准数据集,源自论文《Language models are multilingual chain-of-thought reasoners》。数据集包含来自 GSM8K 的 250 个问题,并由人工翻译为 10 种语言。GSM8K 是一个包含 8.5K 个高质量、语言多样的小学数学文字问题的数据集,旨在支持需要多步推理的数学问题解答任务。
数据集结构
数据实例
-
训练集:
question: 小学数学问题字符串answer: 包含逐步推理的解答字符串answer_number: 问题的数字解答equation_solution: 问题的方程解答
-
测试集:
question: 小学数学问题字符串answer_number: 问题的数字解答
数据字段
question: 问题字符串answer: 解答字符串(包含逐步推理)answer_number: 数字解答equation_solution: 方程解答
数据划分
- 训练集: 每种语言包含 8 个示例
- 测试集: 每种语言包含 250 个问题
| 语言 | 训练集示例数 | 测试集示例数 |
|---|---|---|
| en | 8 | 250 |
| es | 8 | 250 |
| fr | 8 | 250 |
| de | 8 | 250 |
| ru | 8 | 250 |
| zh | 8 | 250 |
| ja | 8 | 250 |
| th | 8 | 250 |
| sw | 8 | 250 |
| bn | 8 | 250 |
| te | 8 | 250 |
语言支持
数据集支持以下语言:
- 英语 (en)
- 西班牙语 (es)
- 法语 (fr)
- 德语 (de)
- 俄语 (ru)
- 中文 (zh)
- 日语 (ja)
- 泰语 (th)
- 斯瓦希里语 (sw)
- 孟加拉语 (bn)
- 泰卢固语 (te)
引用信息
bibtex @article{cobbe2021gsm8k, title={Training Verifiers to Solve Math Word Problems}, author={Cobbe, Karl and Kosaraju, Vineet and Bavarian, Mohammad and Chen, Mark and Jun, Heewoo and Kaiser, Lukasz and Plappert, Matthias and Tworek, Jerry and Hilton, Jacob and Nakano, Reiichiro and Hesse, Christopher and Schulman, John}, journal={arXiv preprint arXiv:2110.14168}, year={2021} } @misc{shi2022language, title={Language Models are Multilingual Chain-of-Thought Reasoners}, author={Freda Shi and Mirac Suzgun and Markus Freitag and Xuezhi Wang and Suraj Srivats and Soroush Vosoughi and Hyung Won Chung and Yi Tay and Sebastian Ruder and Denny Zhou and Dipanjan Das and Jason Wei}, year={2022}, eprint={2210.03057}, archivePrefix={arXiv}, primaryClass={cs.CL} }




