masakhane/afrimgsm

Name: masakhane/afrimgsm
Creator: masakhane
Published: 2025-05-26 18:41:40
License: 暂无描述

Hugging Face2025-05-26 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/masakhane/afrimgsm

下载链接

链接失效反馈

官方服务：

资源简介：

afrimgsm数据集是一个包含18种语言的评估数据集，其中包括16种非洲语言和英语、法语。这个数据集是对GSM8k数据集的一个子集进行翻译得到的，用于文本到文本生成的任务，尤其是自然语言推理。每个语言都有训练集和测试集，每个集的大小为8个样本和250个样本。数据集包含问题和答案字段，用于表示一个简单的数学问题及其解答。

The afrimgsm dataset is an evaluation dataset containing subsets of 18 languages, including 16 African languages and English and French. This dataset is a translation of a subset of the GSM8k dataset, used for text-to-text generation tasks, particularly natural language inference. Each language has a training set and a test set, with each set containing 8 samples for training and 250 samples for testing. The dataset includes fields for questions and answers, representing a simple math problem and its solution.

提供机构：

masakhane

原始信息汇总

数据集卡片 for afrimgsm

数据集描述

数据集概述

AFRIMGSM 是一个评估数据集，包含 GSM8k 数据集的一个子集翻译成 16 种非洲语言。它包括所有 18 种语言的测试集，保留了原始 GSM8k 数据集的英语和法语子集。

语言

数据集包含 18 种语言：

数据集结构

数据实例

英语的示例如下：

python from datasets import load_dataset data = load_dataset(masakhane/afrimgsm, eng)

请指定语言代码

数据点示例如下：

{ question: A football team played 22 games. They won 8 more than they lost. How many did they win?, answer: 15 }

数据字段

question: 小学数学问题的字符串问题。
answer: 最终的数值解。

数据分割

所有语言都有两个分割：train 和 test，它们对应于 GSM8k 数据集的原始 train 和 test 分割。

分割的大小如下：

Language	train	test
am	8	250
ee	8	250
ha	8	250
kin	8	250
ln	8	250
lug	8	250
orm	8	250
sna	8	250
sw	8	250
tw	8	250
wo	8	250
xh	8	250
yo	8	250
zu	8	250
en	8	250
fr	8	250
xh	8	250
xh	8	250
xh	8	250

5,000+

优质数据集

54 个

任务类型

进入经典数据集

Language	train	test
am	8	250
ee	8	250
ha	8	250
kin	8	250
ln	8	250
lug	8	250
orm	8	250
sna	8	250
sw	8	250
tw	8	250
wo	8	250
xh	8	250
yo	8	250
zu	8	250
en	8	250
fr	8	250
xh	8	250
xh	8	250
xh	8	250

Language	train	test
am	8	250
ee	8	250
ha	8	250
kin	8	250
ln	8	250
lug	8	250
orm	8	250
sna	8	250
sw	8	250
tw	8	250
wo	8	250
xh	8	250
yo	8	250
zu	8	250
en	8	250
fr	8	250
xh	8	250
xh	8	250
xh	8	250

Language	train	test
am	8	250
ee	8	250
ha	8	250
kin	8	250
ln	8	250
lug	8	250
orm	8	250
sna	8	250
sw	8	250
tw	8	250
wo	8	250
xh	8	250
yo	8	250
zu	8	250
en	8	250
fr	8	250
xh	8	250
xh	8	250
xh	8	250