MGSM8KInstruct
收藏arXiv2025-09-30 收录
下载链接:
https://mathoctopus.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多语言数学推理指导数据集,它通过将GSM8K测试集的一个子集翻译成十种不同的语言构建而成,旨在解决多语言数学推理任务中训练数据稀缺的问题。每个语言分支包含250个测试样本,这些翻译工作均由母语标注者完成。该数据集的规模涉及10种语言,每种语言包含250个测试样本,其任务是处理多语言数学推理。
This is a multilingual mathematical reasoning instruction dataset, developed by translating a subset of the GSM8K test set into ten distinct languages to address the scarcity of training data for multilingual mathematical reasoning tasks. Each language branch contains 250 test samples, and all translation work was completed by native-speaking annotators. Spanning 10 languages with 250 test samples per language, this dataset targets multilingual mathematical reasoning tasks.
搜集汇总
数据集介绍

背景与挑战
背景概述
MGSM8KInstruct是一个包含10种语言的多语言数学推理指令数据集,总规模为73.6K,旨在解决多语言数学推理任务中的训练数据稀缺问题。
以上内容由遇见数据集搜集并总结生成



