masakhane/afrimgsm
收藏Hugging Face2025-05-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/masakhane/afrimgsm
下载链接
链接失效反馈官方服务:
资源简介:
afrimgsm数据集是一个包含18种语言的评估数据集,其中包括16种非洲语言和英语、法语。这个数据集是对GSM8k数据集的一个子集进行翻译得到的,用于文本到文本生成的任务,尤其是自然语言推理。每个语言都有训练集和测试集,每个集的大小为8个样本和250个样本。数据集包含问题和答案字段,用于表示一个简单的数学问题及其解答。
The afrimgsm dataset is an evaluation dataset containing subsets of 18 languages, including 16 African languages and English and French. This dataset is a translation of a subset of the GSM8k dataset, used for text-to-text generation tasks, particularly natural language inference. Each language has a training set and a test set, with each set containing 8 samples for training and 250 samples for testing. The dataset includes fields for questions and answers, representing a simple math problem and its solution.
提供机构:
masakhane
原始信息汇总
数据集卡片 for afrimgsm
数据集描述
数据集概述
AFRIMGSM 是一个评估数据集,包含 GSM8k 数据集的一个子集翻译成 16 种非洲语言。它包括所有 18 种语言的测试集,保留了原始 GSM8k 数据集的英语和法语子集。
语言
数据集包含 18 种语言:
数据集结构
数据实例
英语的示例如下:
python from datasets import load_dataset data = load_dataset(masakhane/afrimgsm, eng)
请指定语言代码
数据点示例如下:
{ question: A football team played 22 games. They won 8 more than they lost. How many did they win?, answer: 15 }
数据字段
question: 小学数学问题的字符串问题。answer: 最终的数值解。
数据分割
所有语言都有两个分割:train 和 test,它们对应于 GSM8k 数据集的原始 train 和 test 分割。
分割的大小如下:
| Language | train | test |
|---|---|---|
| am | 8 | 250 |
| ee | 8 | 250 |
| ha | 8 | 250 |
| kin | 8 | 250 |
| ln | 8 | 250 |
| lug | 8 | 250 |
| orm | 8 | 250 |
| sna | 8 | 250 |
| sw | 8 | 250 |
| tw | 8 | 250 |
| wo | 8 | 250 |
| xh | 8 | 250 |
| yo | 8 | 250 |
| zu | 8 | 250 |
| en | 8 | 250 |
| fr | 8 | 250 |
| xh | 8 | 250 |
| xh | 8 | 250 |
| xh | 8 | 250 |



