African LLM Datasets
收藏github2026-01-23 更新2026-01-29 收录
下载链接:
https://github.com/The-African-Research-Collective/african-llm-datasets
下载链接
链接失效反馈官方服务:
资源简介:
该仓库旨在作为一个实用的资源,列出了包含一种或多种非洲语言的LLM训练(预训练和后训练)数据集。数据是训练语言模型的最关键成分,但对于非洲语言来说,通常很难确定哪些数据集实际存在以及在哪里可以找到它们。
This repository aims to serve as a practical resource that lists large language model (LLM) training (pre-training and post-training) datasets encompassing one or more African languages. Data constitutes the most critical component for language model training, yet it is often difficult to ascertain which datasets actually exist and where they can be obtained for African languages.
创建时间:
2026-01-05
原始信息汇总
African LLM Datasets 数据集概述
数据集简介
此资源库旨在作为一个实用资源列表,收录包含一种或多种非洲语言的大语言模型训练数据集。它涵盖了预训练数据、指令微调数据集和评估数据集,并为每个数据集提供了详细的元数据。
数据集分类与列表
预训练数据集
| 数据集 | 链接 | 语言覆盖 | 数据划分 | 领域 | 类型 | 许可证 | 加载代码 |
|---|---|---|---|---|---|---|---|
| WURA | https://huggingface.co/datasets/castorini/wura | 16种非洲语言及4种高资源语言 | train | 网络、新闻 | 网络爬取 | Apache-2.0 | 提供 |
| mC4 | https://huggingface.co/datasets/allenai/c4 | 100+种语言 | train, validation | 网络 | 网络爬取 | ODC-BY 1.0 | 提供 |
| AfriBERTa corpus | https://huggingface.co/datasets/castorini/afriberta-corpus | 10种语言 | train, test | 新闻、网络 | 人工整理 | Apache-2.0 | 提供 |
指令微调数据集
通用目的
| 数据集 | 链接 | 总样本数 | 语言覆盖 | 数据划分 | 领域 | 类型 | 许可证 | 加载代码 |
|---|---|---|---|---|---|---|---|---|
| Aya Dataset | https://huggingface.co/datasets/CohereLabs/aya_dataset | 204k | 65种语言 | train, test | 通用 | 人工 | Apache-2.0 | 提供 |
| AfriInstruct-Data | https://huggingface.co/datasets/llama-lang-adapt/AfriInstruct-Data | 9.5M | 13种语言 | train, val, test | 通用 | 混合 | CC BY 4.0 | 提供 |
| Inkuba-Instruct | https://huggingface.co/datasets/lelapa/Inkuba-instruct | 116.2M | 5种语言 | train, dev | 通用 | 混合 | CC BY-NC 4.0 | 提供 |
| InstructLR Generate | https://huggingface.co/datasets/27Group/InstructLR_Generate_Datasets | 150k | 3种语言 | train | 通用 | 合成 | CC-BY-SA 4.0 | 提供 |
| MURI-IT | https://huggingface.co/datasets/akoksal/muri-it | 2.2M | 未指定 | train, val, test | 通用 | 混合 | Apache 2.0 | 提供 |
| Walia Instruction | https://huggingface.co/datasets/EthioNLP/Amharic_Instruction_dataset | 153k | 未指定 | train, val, test | 通用 | 混合 | 未指定 | 提供 |
推理
| 数据集 | 链接 | 总样本数 | 语言覆盖 | 数据划分 | 领域 | 类型 | 许可证 | 加载代码 |
|---|---|---|---|---|---|---|---|---|
| OpenMathsInstruct-2 (African) | https://huggingface.co/datasets/taresco/open_math_instruct_v2_translated_african_languages | 30.2k | 未指定 | train | 数学 | 翻译 | Apache 2.0 | 提供 |
安全与对齐
| 数据集 | 链接 | 总样本数 | 语言覆盖 | 数据划分 | 领域 | 类型 | 许可证 | 加载代码 |
|---|---|---|---|---|---|---|---|---|
| WildJailbreak Africa | https://huggingface.co/datasets/CraneAILabs/wildjailbreak-africa | ~299k | 未指定 | train | 安全 | 翻译 | ODC-BY-1.0 | 提供 |
翻译
| 数据集 | 链接 | 总样本数 | 语言覆盖 | 数据划分 | 领域 | 类型 | 许可证 | 加载代码 |
|---|---|---|---|---|---|---|---|---|
| SMOL | https://huggingface.co/datasets/google/smol | 未指定 | 未指定 | train | 未指定 | 网络爬取 | CC-BY-4.0 | 未提供 |
评估数据集
问答与多项选择问答
| 数据集 | 链接 | 总样本数 | 语言覆盖 | 数据划分 | 任务 | 类型 | 许可证 | 加载代码 |
|---|---|---|---|---|---|---|---|---|
| Afri-MCQA | https://huggingface.co/datasets/Atnafu/Afri-MCQA | 8k | 未指定 | test, dev | MCQA, VQA, LID, ASR | 人工 | CC BY-NC 4.0 | 提供 |
| UCCB | https://huggingface.co/datasets/CraneAILabs/UCCB | 1.04k | 未指定 | 未指定 | QA | 人工 | CC BY-NC-SA 4.0 | 提供 |
| Uhura-Arc-Easy | https://huggingface.co/datasets/masakhane/uhura-arc-easy | 8.6k | 未指定 | train, val, test | 科学问答 | 人工翻译 | MIT | 提供 |
| Uhura-TruthfulQA | https://huggingface.co/datasets/masakhane/uhura-truthfulqa | 11.3k | 未指定 | train, test | 真实问答 | 人工翻译 | MIT | 提供 |
| Belebele | https://huggingface.co/datasets/facebook/belebele | 110k | 未指定 | test | MCQA, NLU | 人工翻译 | CC BY-SA 4.0 | 提供 |
| AFRIMMLU | https://huggingface.co/datasets/masakhane/afrimmlu | 10.9k | 未指定 | val, dev, test | MCQA | 未指定 | Apache-2.0 | 提供 |
翻译
| 数据集 | 链接 | 总样本数 | 语言覆盖 | 数据划分 | 任务 | 类型 | 许可证 | 加载代码 |
|---|---|---|---|---|---|---|---|---|
| FLORES+ | https://huggingface.co/datasets/openlanguagedata/flores_plus | 未指定 | 未指定 | dev, devtest, test | 机器翻译 | 人工翻译 | CC BY-SA 4.0 | 提供 |
| AfriDocMT | https://huggingface.co/datasets/masakhane/AfriDocMT | 28.2k | 未指定 | train, val, test | 文档机器翻译 | 人工翻译 | CC BY-NC-SA 3.0/4.0 | 提供 |
| AfriMTE-WMT2024 | https://huggingface.co/datasets/masakhane/AfriMTE-WMT2024 | 2.82k | 未指定 | test | 机器翻译 | 混合 | CC BY 4.0 | 提供 |
| NTREX | https://huggingface.co/datasets/davidstap/NTREX | 255.6k | 未指定 | test | 机器翻译 | 人工翻译 | CC BY-SA 4.0 | 提供 |
推理
| 数据集 | 链接 | 总样本数 | 语言覆盖 | 数据划分 | 任务 | 类型 | 许可证 | 加载代码 |
|---|---|---|---|---|---|---|---|---|
| Global PIQA | https://huggingface.co/datasets/mrlbenchmarks/global-piqa-nonparallel | 11.6k | 未指定 | test | 常识推理 | 人工 | CC BY-SA 4.0 | 提供 |
| AfriMGSM | https://huggingface.co/datasets/masakhane/afrimgsm | 4.9k | 未指定 | train, test | 数学 | 翻译 | Apache-2.0 | 提供 |
分类
| 数据集 | 链接 | 总样本数 | 语言覆盖 | 数据划分 | 任务 | 类型 | 许可证 | 加载代码 |
|---|---|---|---|---|---|---|---|---|
| InjongoIntent | https://huggingface.co/datasets/masakhane/InjongoIntent/viewer | 53.5k | 未指定 | train, val, test | 意图识别、槽位填充 | 人工 | Apache 2.0 | 提供 |
关键数据集详情摘要
WURA
- 描述: 通过审核mC4并爬取经过验证的新闻源创建的高质量预训练语料库,涵盖16种非洲语言和4种高资源语言。
- 语言与规模: 包含阿非利卡语、阿姆哈拉语、齐切瓦语、豪萨语、伊博语、马达加斯加语、塞索托语、绍纳语、索马里语、斯瓦希里语、科萨语、约鲁巴语、祖鲁语、奥罗莫语、基尼亚卢旺达语、提格里尼亚语,数据规模从0.03 GB到4.8 GB不等。
mC4
- 描述: 多语言C4数据集,涵盖100多种语言,包含来自Common Crawl的网络爬取文本。
AfriBERTa corpus
- 描述: 大规模指令微调数据集,结合了多个公开可用的非洲语言数据集,涵盖翻译、主题分类和问答等任务。
- 语言与规模: 涵盖奥罗莫语、阿姆哈拉语、Gahuza、豪萨语、伊博语、皮钦语、索马里语、斯瓦希里语、提格里尼亚语、约鲁巴语,训练集规模从12.1k到1.44M不等。
Aya Dataset
- 描述: 多语言、人工整理的指令微调数据集,涵盖广泛的任务。
- 语言与规模: 涵盖65种语言,训练集共202k样本,测试集1.75k样本。非洲语言包括约鲁巴语、索马里语、豪萨语、沃洛夫语、祖鲁语、伊博语、绍纳语、阿姆哈拉语、科萨语、斯瓦希里语、北索托语。
AfriInstruct-Data
- 描述: 大规模指令微调数据集,结合了多个公开可用的非洲语言数据集,涵盖翻译、主题分类和问答等任务。
- 语言与规模: 涵盖斯瓦希里语、豪萨语、约鲁巴语、伊博语、阿姆哈拉语、基尼亚卢旺达语、奥罗莫语、提格里尼亚语、绍纳语、科萨语、齐切瓦语、祖鲁语、索马里语,训练集总规模8.95M。
Inkuba-Instruct
- 描述: 综合多语言指令数据集,结合了多个开源下游数据集,旨在支持这些非洲语言的一系列自然语言处理任务。
- 语言与规模: 涵盖斯瓦希里语、豪萨语、约鲁巴语、祖鲁语、科萨语,训练集规模从4.05M到43.7M不等。
InstructLR Generate Datasets
- 描述: 使用InstructLR框架生成的数据集。它以法语“种子”指令为基础,由LLM生成目标语言的指令、响应甚至思维链推理。
- 语言与规模: 涵盖哲尔马语、班巴拉语、富拉语,每种语言训练集50k样本。
数据表列定义
所有数据集表使用以下列:
- Dataset: 数据集名称
- Link: 主要托管位置
- Total Size: 总样本数
- Language Breakdown: 每种语言的覆盖范围和近似数量
- Splits: 可用划分
- Domain: 数据集领域
- Type: 数据来源:人工、合成、翻译或混合
- License: 数据集许可证
- Code: 加载数据集的最小代码片段
贡献方式
- 添加新数据集: 提交包含完整信息的拉取请求。
- 更新或更正条目: 提交问题或拉取请求。
搜集汇总
数据集介绍

构建方式
在非洲语言技术研究领域,数据资源的稀缺性与分散性长期制约着相关模型的开发与应用。African LLM Datasets的构建采用了系统化、结构化的方法,通过整合来自多个公开来源的数据集,包括预训练数据、指令微调数据集以及评估数据集。该资源库对每个数据集进行了详尽的元数据标注,涵盖语言覆盖范围、数据规模、划分方式、领域类别、数据来源类型及许可协议等关键信息。构建过程中特别注重数据的可追溯性与实用性,尽可能提供按语言划分的详细统计以及训练、验证、测试集的明确分割,旨在为研究人员呈现清晰、可靠的数据全景图。
特点
该数据集的核心特点在于其全面性与针对性,专门聚焦于涵盖一种或多种非洲语言的大语言模型训练数据。它不仅汇集了如WURA、mC4等经过质量审核的预训练语料,还广泛收录了Aya Dataset、AfriInstruct-Data等大规模、多任务的指令微调数据集,以及覆盖问答、翻译、推理、分类等多个维度的评估基准。资源库以动态表格形式组织信息,提供了精确到语言级别的数据规模统计和标准化的数据划分,显著提升了数据发现的效率与透明度,为低资源语言的技术研究提供了坚实的数据基础设施。
使用方法
对于致力于非洲语言模型研发的研究者与工程师而言,该数据集提供了便捷的接入途径。用户可通过资源库中为每个数据集提供的标准化代码片段,利用Hugging Face的`datasets`库直接加载所需数据。例如,加载WURA数据集中约鲁巴语部分仅需数行Python代码即可完成。资源库鼓励社区贡献,用户可通过提交Pull Request来添加新的数据集或修正现有条目,从而共同推动这一资源的持续完善与扩展,使其更好地服务于非洲语言技术的创新与发展。
背景与挑战
背景概述
在自然语言处理领域,数据被视为训练语言模型的核心要素,然而对于非洲语言而言,高质量、易获取的数据集长期匮乏。African LLM Datasets 项目由 The African Research Collective 等研究机构推动,旨在系统性地整理和提供涵盖非洲语言的预训练、指令微调及评估数据集。该资源库通过详细的元数据标注和语言细分,致力于解决非洲语言技术在数据层面的瓶颈,为低资源语言的自然语言处理研究提供关键支持,其影响力正逐步扩展到多语言模型公平性与泛化能力的前沿探索中。
当前挑战
该数据集旨在应对非洲语言在自然语言处理中的低资源挑战,其核心问题包括多语言理解、机器翻译及指令跟随等任务的性能提升。然而,构建过程面临显著障碍:非洲语言数据分散且质量参差不齐,需通过人工审核与混合来源(如合成、翻译数据)进行整合;同时,许多语言缺乏精确的规模统计与标准化分割,导致数据覆盖评估困难。此外,数据许可的多样性与伦理考量进一步增加了数据集规范化与可持续维护的复杂性。
常用场景
经典使用场景
在自然语言处理领域,非洲语言长期面临数据稀缺的挑战,African LLM Datasets 的经典使用场景在于为大语言模型的预训练和指令微调提供高质量、多语言的语料支持。该数据集通过整合涵盖新闻、网页、问答及翻译等多个领域的文本,为研究者构建和优化面向非洲语言的模型奠定了数据基础,尤其在低资源语言环境下,其精心审计和清洗的数据显著提升了模型训练的效率和效果。
实际应用
在实际应用中,African LLM Datasets 为开发面向非洲地区的智能语言工具提供了关键数据支撑。例如,基于该数据集训练的模型可应用于本地化的机器翻译系统、多语言客服助手、教育技术平台的内容生成,以及新闻媒体的自动摘要等场景。这些应用不仅提升了语言服务的可及性,也促进了非洲地区在数字化转型中的包容性发展。
衍生相关工作
该数据集衍生了一系列经典研究工作,例如基于 WURA 和 AfriBERTa 语料训练的 T5 模型在低资源语言任务中展现出卓越性能;Aya Dataset 和 AfriInstruct-Data 推动了多语言指令微调技术的进步;而 InkubaLM 等小型语言模型的开发则验证了在有限数据下构建高效模型的可行性。这些工作共同丰富了非洲语言技术的研究生态。
以上内容由遇见数据集搜集并总结生成



