African LLM Datasets

github2026-01-22 更新2026-01-23 收录

下载链接：

https://github.com/The-African-Research-Collective/african-post-training-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库旨在作为一个实用资源，列出包含一种或多种非洲语言的可用LLM训练（预训练和后训练）数据集。数据是训练语言模型的最关键成分，但对于非洲语言来说，通常很难确定哪些数据集实际存在以及在哪里找到它们。

This repository is intended as a practical resource cataloging available LLM training (pretraining and post-training) datasets that encompass one or more African languages. Data constitutes the most critical ingredient for training language models; however, for African languages, it is typically difficult to ascertain which datasets actually exist and where they may be obtained.

创建时间：

2026-01-05

原始信息汇总

非洲语言模型数据集概览

数据集简介

此资源库旨在作为一个实用资源列表，收录了包含一种或多种非洲语言的大语言模型训练数据集。它涵盖了预训练数据、指令微调数据集和评估数据集，并为每个数据集提供了详细的元数据。

数据集分类与详情

预训练数据集

数据集	链接	语言覆盖	数据划分	领域	类型	许可证
WURA	https://huggingface.co/datasets/castorini/wura	16种非洲语言及4种高资源语言	train	网络、新闻	网络爬取	Apache-2.0
mC4	https://huggingface.co/datasets/allenai/c4	100多种语言	train, validation	网络	网络爬取	ODC-BY 1.0
AfriBERTa corpus	https://huggingface.co/datasets/castorini/afriberta-corpus	10种非洲语言	train, test	新闻、网络	人工整理	Apache-2.0

指令微调数据集

通用目的

数据集	链接	总样本量	语言覆盖	数据划分	领域	类型	许可证
Aya Dataset	https://huggingface.co/datasets/CohereLabs/aya_dataset	204k	65种语言（含11种非洲语言）	train, test	通用	人工	Apache-2.0
AfriInstruct-Data	https://huggingface.co/datasets/llama-lang-adapt/AfriInstruct-Data	9.5M	13种非洲语言	train, val, test	通用	混合	CC BY 4.0
Inkuba-Instruct	https://huggingface.co/datasets/lelapa/Inkuba-instruct	116.2M	5种非洲语言	train, dev	通用	混合	CC BY-NC 4.0
InstructLR Generate	https://huggingface.co/datasets/27Group/InstructLR_Generate_Datasets	150k	3种非洲语言	train	通用	合成	CC-BY-SA 4.0
MURI-IT	https://huggingface.co/datasets/akoksal/muri-it	2.2M	未在摘要中详述	train, val, test	通用	混合	Apache 2.0
Walia Instruction	https://huggingface.co/datasets/EthioNLP/Amharic_Instruction_dataset	153k	未在摘要中详述	train, val, test	通用	混合	未指定

推理

数据集	链接	总样本量	语言覆盖	数据划分	领域	类型	许可证
OpenMathsInstruct-2 (African)	https://huggingface.co/datasets/taresco/open_math_instruct_v2_translated_african_languages	30.2k	未在摘要中详述	train	数学	翻译	Apache 2.0

安全与对齐

数据集	链接	总样本量	语言覆盖	数据划分	领域	类型	许可证
WildJailbreak Africa	https://huggingface.co/datasets/CraneAILabs/wildjailbreak-africa	~299k	未在摘要中详述	train	安全	翻译	ODC-BY-1.0

翻译

数据集	链接	总样本量	语言覆盖	数据划分	领域	类型	许可证
SMOL	https://huggingface.co/datasets/google/smol	未指定	未在摘要中详述	train	未指定	网络爬取	CC-BY-4.0

评估数据集

问答与多项选择问答

数据集	链接	总样本量	语言覆盖	数据划分	任务	类型	许可证
Afri-MCQA	https://huggingface.co/datasets/Atnafu/Afri-MCQA	8k	未在摘要中详述	test, dev	MCQA, VQA, LID, ASR	人工	CC BY-NC 4.0
UCCB	https://huggingface.co/datasets/CraneAILabs/UCCB	1.04k	未指定	未指定	QA	人工	CC BY-NC-SA 4.0
Uhura-Arc-Easy	https://huggingface.co/datasets/masakhane/uhura-arc-easy	8.6k	未在摘要中详述	train, val, test	科学问答	人工翻译	MIT
Uhura-TruthfulQA	https://huggingface.co/datasets/masakhane/uhura-truthfulqa	11.3k	未在摘要中详述	train, test	真实性问答	人工翻译	MIT
Belebele	https://huggingface.co/datasets/facebook/belebele	110k	未在摘要中详述	test	MCQA, NLU	人工翻译	CC BY-SA 4.0
AFRIMMLU	https://huggingface.co/datasets/masakhane/afrimmlu	10.9k	未在摘要中详述	val, dev, test	MCQA	未指定	Apache-2.0

翻译

数据集	链接	总样本量	语言覆盖	数据划分	任务	类型	许可证
FLORES+	https://huggingface.co/datasets/openlanguagedata/flores_plus	未在摘要中详述	未指定	dev, devtest, test	机器翻译	人工翻译	CC BY-SA 4.0
AfriDocMT	https://huggingface.co/datasets/masakhane/AfriDocMT	28.2k	未在摘要中详述	train, val, test	文档级机器翻译	人工翻译	CC BY-NC-SA 3.0/4.0
AfriMTE-WMT2024	https://huggingface.co/datasets/masakhane/AfriMTE-WMT2024	2.82k	未在摘要中详述	test	机器翻译	混合	CC BY 4.0
NTREX	https://huggingface.co/datasets/davidstap/NTREX	255.6k	未在摘要中详述	test	机器翻译	人工翻译	CC BY-SA 4.0

推理

数据集	链接	总样本量	语言覆盖	数据划分	任务	类型	许可证
Global PIQA	https://huggingface.co/datasets/mrlbenchmarks/global-piqa-nonparallel	11.6k	未在摘要中详述	test	常识推理	人工	CC BY-SA 4.0
AfriMGSM	https://huggingface.co/datasets/masakhane/afrimgsm	4.9k	未在摘要中详述	train, test	数学	翻译	Apache-2.0

分类

数据集	链接	总样本量	语言覆盖	数据划分	任务	类型	许可证
InjongoIntent	https://huggingface.co/datasets/masakhane/InjongoIntent/viewer	53.5k	未在摘要中详述	train, val, test	意图识别、槽填充	人工	Apache 2.0

关键数据集详情摘要

WURA: 包含16种非洲语言的高质量预训练语料库，数据来源于对mC4的审核以及对已验证新闻源的爬取。
Aya Dataset: 涵盖65种语言的大规模、人工整理的指令微调数据集，其中包含11种非洲语言。
AfriInstruct-Data: 大规模指令微调数据集，合并了多个公开可用的非洲语言数据集，涵盖翻译、主题分类和问答等任务。
Inkuba-Instruct: 综合多语言指令数据集，结合了多个开源下游数据集，支持多种自然语言处理任务。

数据属性说明

语言覆盖: 许多数据集提供了按语言细分的样本量。
数据划分: 常见划分包括训练集、验证集和测试集。
数据领域: 涵盖通用、问答、数学、安全、翻译等多个领域。
数据来源类型: 包括人工整理、合成、翻译或混合类型。
许可证: 数据集采用多种开源许可证，如Apache-2.0、CC BY 4.0等。

搜集汇总

数据集介绍

构建方式

在非洲语言技术研究领域，数据资源的稀缺性长期制约着大语言模型的发展。African LLM Datasets通过系统化整合与标准化处理，构建了一个覆盖预训练、指令微调和评估任务的多语言数据集集合。其构建过程首先对现有公开数据源进行审计与筛选，如对mC4等通用爬虫数据进行质量清洗，并补充来自新闻网站等可靠来源的文本。针对指令微调数据，采用人工标注、多语言翻译以及合成生成相结合的方式，确保任务类型的多样性。所有数据集均经过统一的结构化处理，包含语言分布统计、数据划分和元数据标注，形成可追溯、可复现的数据资源体系。

特点

该数据集的核心特点体现在其针对非洲语言的全方位覆盖与精细化管理。资源囊括了斯瓦希里语、豪萨语、约鲁巴语等十余种主要非洲语言，并延伸至齐切瓦语、提格里尼亚语等低资源语种。数据维度跨越预训练语料、指令微调数据和专项评估集，其中指令微调数据更细分为通用对话、数学推理、安全对齐等垂直领域。技术层面采用混合数据来源策略，融合人工标注、机器翻译和合成生成数据，平衡了数据规模与质量需求。所有条目均提供明确的语言分布统计、数据划分信息及开源许可协议，为跨语言模型研究提供了透明可靠的数据基础。

使用方法

研究者在实际应用中可通过标准化流程调用该数据集资源。所有数据均托管于Hugging Face等开源平台，用户可通过datasets库直接加载，例如使用load_dataset函数指定数据集名称与语言参数即可获取相应语料。对于预训练任务，可选用WURA等经过质量过滤的语料库；指令微调场景则可根据目标语言选择Aya Dataset等人工标注数据或AfriInstruct-Data等混合数据集。评估阶段可利用Afri-MCQA等专项测试集进行多任务性能验证。数据加载代码片段已内置于元数据中，支持按语言、划分和领域进行灵活筛选，同时严格的许可协议体系确保了学术与工业应用的合规性。

背景与挑战

背景概述

在自然语言处理领域，非洲语言长期面临数据稀缺的困境，制约了相关语言模型的发展与应用。African LLM Datasets项目应运而生，由The African Research Collective等研究机构于近年发起，旨在系统性地汇集涵盖非洲语言的预训练、指令微调及评估数据集。该资源库的核心使命是解决非洲语言技术生态中数据可见性与可及性的根本问题，通过提供详尽的元数据与语言细分统计，为构建更公平、包容的多语言人工智能奠定基础。其影响力已辐射至低资源语言建模、机器翻译及跨语言理解等多个研究方向，成为推动全球语言多样性技术发展的重要基石。

当前挑战

该数据集致力于应对非洲语言在自然语言处理中的核心挑战，即低资源语言模型性能提升与跨语言泛化能力不足的问题。具体而言，构建过程面临多重困难：非洲语言种类繁多且书写系统多样，导致数据收集与标注成本高昂；现有网络语料质量参差不齐，需通过人工审核与改进爬取策略以提升数据纯净度；许多语言缺乏标准化的训练-验证-测试划分，为模型评估带来不确定性。此外，数据许可协议的异构性及部分语言样本量极小，进一步增加了数据集整合与实用化的复杂度。

常用场景

经典使用场景

在自然语言处理领域，非洲语言长期面临数据稀缺的挑战，African LLM Datasets 的经典使用场景在于为大语言模型的预训练与指令微调提供高质量、多语言的语料支持。该数据集通过整合如 WURA、AfriBERTa 等经过严格审核的预训练语料，以及 Aya Dataset、AfriInstruct-Data 等涵盖广泛任务的指令数据集，为研究人员构建和优化面向非洲语言的模型奠定了数据基础。这些数据集通常被用于训练跨语言表示模型，提升模型在低资源语言上的理解和生成能力，从而推动非洲语言技术生态的发展。

衍生相关工作

围绕 African LLM Datasets，学术界与工业界已衍生出一系列经典研究工作。例如，基于 WURA 语料训练的 T5 变体模型在多项下游任务中展现出优于通用多语言模型的性能；AfriBERTa 研究探索了在低资源场景下预训练模型的有效性，为小数据建模提供了新思路。此外，Aya 模型利用对应指令数据集实现了多语言指令跟随能力的突破，而 InkubaLM 等项目则进一步验证了专用小规模模型在非洲语言上的实用性。这些工作共同推动了非洲语言计算领域的理论创新与技术落地。

数据集最近研究