African LLM Datasets
收藏github2026-01-22 更新2026-01-23 收录
下载链接:
https://github.com/The-African-Research-Collective/african-post-training-datasets
下载链接
链接失效反馈官方服务:
资源简介:
该仓库旨在作为一个实用资源,列出包含一种或多种非洲语言的可用LLM训练(预训练和后训练)数据集。数据是训练语言模型的最关键成分,但对于非洲语言来说,通常很难确定哪些数据集实际存在以及在哪里找到它们。
This repository is intended as a practical resource cataloging available LLM training (pretraining and post-training) datasets that encompass one or more African languages. Data constitutes the most critical ingredient for training language models; however, for African languages, it is typically difficult to ascertain which datasets actually exist and where they may be obtained.
创建时间:
2026-01-05
原始信息汇总
非洲语言模型数据集概览
数据集简介
此资源库旨在作为一个实用资源列表,收录了包含一种或多种非洲语言的大语言模型训练数据集。它涵盖了预训练数据、指令微调数据集和评估数据集,并为每个数据集提供了详细的元数据。
数据集分类与详情
预训练数据集
| 数据集 | 链接 | 语言覆盖 | 数据划分 | 领域 | 类型 | 许可证 |
|---|---|---|---|---|---|---|
| WURA | https://huggingface.co/datasets/castorini/wura | 16种非洲语言及4种高资源语言 | train | 网络、新闻 | 网络爬取 | Apache-2.0 |
| mC4 | https://huggingface.co/datasets/allenai/c4 | 100多种语言 | train, validation | 网络 | 网络爬取 | ODC-BY 1.0 |
| AfriBERTa corpus | https://huggingface.co/datasets/castorini/afriberta-corpus | 10种非洲语言 | train, test | 新闻、网络 | 人工整理 | Apache-2.0 |
指令微调数据集
通用目的
| 数据集 | 链接 | 总样本量 | 语言覆盖 | 数据划分 | 领域 | 类型 | 许可证 |
|---|---|---|---|---|---|---|---|
| Aya Dataset | https://huggingface.co/datasets/CohereLabs/aya_dataset | 204k | 65种语言(含11种非洲语言) | train, test | 通用 | 人工 | Apache-2.0 |
| AfriInstruct-Data | https://huggingface.co/datasets/llama-lang-adapt/AfriInstruct-Data | 9.5M | 13种非洲语言 | train, val, test | 通用 | 混合 | CC BY 4.0 |
| Inkuba-Instruct | https://huggingface.co/datasets/lelapa/Inkuba-instruct | 116.2M | 5种非洲语言 | train, dev | 通用 | 混合 | CC BY-NC 4.0 |
| InstructLR Generate | https://huggingface.co/datasets/27Group/InstructLR_Generate_Datasets | 150k | 3种非洲语言 | train | 通用 | 合成 | CC-BY-SA 4.0 |
| MURI-IT | https://huggingface.co/datasets/akoksal/muri-it | 2.2M | 未在摘要中详述 | train, val, test | 通用 | 混合 | Apache 2.0 |
| Walia Instruction | https://huggingface.co/datasets/EthioNLP/Amharic_Instruction_dataset | 153k | 未在摘要中详述 | train, val, test | 通用 | 混合 | 未指定 |
推理
| 数据集 | 链接 | 总样本量 | 语言覆盖 | 数据划分 | 领域 | 类型 | 许可证 |
|---|---|---|---|---|---|---|---|
| OpenMathsInstruct-2 (African) | https://huggingface.co/datasets/taresco/open_math_instruct_v2_translated_african_languages | 30.2k | 未在摘要中详述 | train | 数学 | 翻译 | Apache 2.0 |
安全与对齐
| 数据集 | 链接 | 总样本量 | 语言覆盖 | 数据划分 | 领域 | 类型 | 许可证 |
|---|---|---|---|---|---|---|---|
| WildJailbreak Africa | https://huggingface.co/datasets/CraneAILabs/wildjailbreak-africa | ~299k | 未在摘要中详述 | train | 安全 | 翻译 | ODC-BY-1.0 |
翻译
| 数据集 | 链接 | 总样本量 | 语言覆盖 | 数据划分 | 领域 | 类型 | 许可证 |
|---|---|---|---|---|---|---|---|
| SMOL | https://huggingface.co/datasets/google/smol | 未指定 | 未在摘要中详述 | train | 未指定 | 网络爬取 | CC-BY-4.0 |
评估数据集
问答与多项选择问答
| 数据集 | 链接 | 总样本量 | 语言覆盖 | 数据划分 | 任务 | 类型 | 许可证 |
|---|---|---|---|---|---|---|---|
| Afri-MCQA | https://huggingface.co/datasets/Atnafu/Afri-MCQA | 8k | 未在摘要中详述 | test, dev | MCQA, VQA, LID, ASR | 人工 | CC BY-NC 4.0 |
| UCCB | https://huggingface.co/datasets/CraneAILabs/UCCB | 1.04k | 未指定 | 未指定 | QA | 人工 | CC BY-NC-SA 4.0 |
| Uhura-Arc-Easy | https://huggingface.co/datasets/masakhane/uhura-arc-easy | 8.6k | 未在摘要中详述 | train, val, test | 科学问答 | 人工翻译 | MIT |
| Uhura-TruthfulQA | https://huggingface.co/datasets/masakhane/uhura-truthfulqa | 11.3k | 未在摘要中详述 | train, test | 真实性问答 | 人工翻译 | MIT |
| Belebele | https://huggingface.co/datasets/facebook/belebele | 110k | 未在摘要中详述 | test | MCQA, NLU | 人工翻译 | CC BY-SA 4.0 |
| AFRIMMLU | https://huggingface.co/datasets/masakhane/afrimmlu | 10.9k | 未在摘要中详述 | val, dev, test | MCQA | 未指定 | Apache-2.0 |
翻译
| 数据集 | 链接 | 总样本量 | 语言覆盖 | 数据划分 | 任务 | 类型 | 许可证 |
|---|---|---|---|---|---|---|---|
| FLORES+ | https://huggingface.co/datasets/openlanguagedata/flores_plus | 未在摘要中详述 | 未指定 | dev, devtest, test | 机器翻译 | 人工翻译 | CC BY-SA 4.0 |
| AfriDocMT | https://huggingface.co/datasets/masakhane/AfriDocMT | 28.2k | 未在摘要中详述 | train, val, test | 文档级机器翻译 | 人工翻译 | CC BY-NC-SA 3.0/4.0 |
| AfriMTE-WMT2024 | https://huggingface.co/datasets/masakhane/AfriMTE-WMT2024 | 2.82k | 未在摘要中详述 | test | 机器翻译 | 混合 | CC BY 4.0 |
| NTREX | https://huggingface.co/datasets/davidstap/NTREX | 255.6k | 未在摘要中详述 | test | 机器翻译 | 人工翻译 | CC BY-SA 4.0 |
推理
| 数据集 | 链接 | 总样本量 | 语言覆盖 | 数据划分 | 任务 | 类型 | 许可证 |
|---|---|---|---|---|---|---|---|
| Global PIQA | https://huggingface.co/datasets/mrlbenchmarks/global-piqa-nonparallel | 11.6k | 未在摘要中详述 | test | 常识推理 | 人工 | CC BY-SA 4.0 |
| AfriMGSM | https://huggingface.co/datasets/masakhane/afrimgsm | 4.9k | 未在摘要中详述 | train, test | 数学 | 翻译 | Apache-2.0 |
分类
| 数据集 | 链接 | 总样本量 | 语言覆盖 | 数据划分 | 任务 | 类型 | 许可证 |
|---|---|---|---|---|---|---|---|
| InjongoIntent | https://huggingface.co/datasets/masakhane/InjongoIntent/viewer | 53.5k | 未在摘要中详述 | train, val, test | 意图识别、槽填充 | 人工 | Apache 2.0 |
关键数据集详情摘要
- WURA: 包含16种非洲语言的高质量预训练语料库,数据来源于对mC4的审核以及对已验证新闻源的爬取。
- Aya Dataset: 涵盖65种语言的大规模、人工整理的指令微调数据集,其中包含11种非洲语言。
- AfriInstruct-Data: 大规模指令微调数据集,合并了多个公开可用的非洲语言数据集,涵盖翻译、主题分类和问答等任务。
- Inkuba-Instruct: 综合多语言指令数据集,结合了多个开源下游数据集,支持多种自然语言处理任务。
数据属性说明
- 语言覆盖: 许多数据集提供了按语言细分的样本量。
- 数据划分: 常见划分包括训练集、验证集和测试集。
- 数据领域: 涵盖通用、问答、数学、安全、翻译等多个领域。
- 数据来源类型: 包括人工整理、合成、翻译或混合类型。
- 许可证: 数据集采用多种开源许可证,如Apache-2.0、CC BY 4.0等。
搜集汇总
数据集介绍

构建方式
在非洲语言技术研究领域,数据资源的稀缺性长期制约着大语言模型的发展。African LLM Datasets通过系统化整合与标准化处理,构建了一个覆盖预训练、指令微调和评估任务的多语言数据集集合。其构建过程首先对现有公开数据源进行审计与筛选,如对mC4等通用爬虫数据进行质量清洗,并补充来自新闻网站等可靠来源的文本。针对指令微调数据,采用人工标注、多语言翻译以及合成生成相结合的方式,确保任务类型的多样性。所有数据集均经过统一的结构化处理,包含语言分布统计、数据划分和元数据标注,形成可追溯、可复现的数据资源体系。
特点
该数据集的核心特点体现在其针对非洲语言的全方位覆盖与精细化管理。资源囊括了斯瓦希里语、豪萨语、约鲁巴语等十余种主要非洲语言,并延伸至齐切瓦语、提格里尼亚语等低资源语种。数据维度跨越预训练语料、指令微调数据和专项评估集,其中指令微调数据更细分为通用对话、数学推理、安全对齐等垂直领域。技术层面采用混合数据来源策略,融合人工标注、机器翻译和合成生成数据,平衡了数据规模与质量需求。所有条目均提供明确的语言分布统计、数据划分信息及开源许可协议,为跨语言模型研究提供了透明可靠的数据基础。
使用方法
研究者在实际应用中可通过标准化流程调用该数据集资源。所有数据均托管于Hugging Face等开源平台,用户可通过datasets库直接加载,例如使用load_dataset函数指定数据集名称与语言参数即可获取相应语料。对于预训练任务,可选用WURA等经过质量过滤的语料库;指令微调场景则可根据目标语言选择Aya Dataset等人工标注数据或AfriInstruct-Data等混合数据集。评估阶段可利用Afri-MCQA等专项测试集进行多任务性能验证。数据加载代码片段已内置于元数据中,支持按语言、划分和领域进行灵活筛选,同时严格的许可协议体系确保了学术与工业应用的合规性。
背景与挑战
背景概述
在自然语言处理领域,非洲语言长期面临数据稀缺的困境,制约了相关语言模型的发展与应用。African LLM Datasets项目应运而生,由The African Research Collective等研究机构于近年发起,旨在系统性地汇集涵盖非洲语言的预训练、指令微调及评估数据集。该资源库的核心使命是解决非洲语言技术生态中数据可见性与可及性的根本问题,通过提供详尽的元数据与语言细分统计,为构建更公平、包容的多语言人工智能奠定基础。其影响力已辐射至低资源语言建模、机器翻译及跨语言理解等多个研究方向,成为推动全球语言多样性技术发展的重要基石。
当前挑战
该数据集致力于应对非洲语言在自然语言处理中的核心挑战,即低资源语言模型性能提升与跨语言泛化能力不足的问题。具体而言,构建过程面临多重困难:非洲语言种类繁多且书写系统多样,导致数据收集与标注成本高昂;现有网络语料质量参差不齐,需通过人工审核与改进爬取策略以提升数据纯净度;许多语言缺乏标准化的训练-验证-测试划分,为模型评估带来不确定性。此外,数据许可协议的异构性及部分语言样本量极小,进一步增加了数据集整合与实用化的复杂度。
常用场景
经典使用场景
在自然语言处理领域,非洲语言长期面临数据稀缺的挑战,African LLM Datasets 的经典使用场景在于为大语言模型的预训练与指令微调提供高质量、多语言的语料支持。该数据集通过整合如 WURA、AfriBERTa 等经过严格审核的预训练语料,以及 Aya Dataset、AfriInstruct-Data 等涵盖广泛任务的指令数据集,为研究人员构建和优化面向非洲语言的模型奠定了数据基础。这些数据集通常被用于训练跨语言表示模型,提升模型在低资源语言上的理解和生成能力,从而推动非洲语言技术生态的发展。
衍生相关工作
围绕 African LLM Datasets,学术界与工业界已衍生出一系列经典研究工作。例如,基于 WURA 语料训练的 T5 变体模型在多项下游任务中展现出优于通用多语言模型的性能;AfriBERTa 研究探索了在低资源场景下预训练模型的有效性,为小数据建模提供了新思路。此外,Aya 模型利用对应指令数据集实现了多语言指令跟随能力的突破,而 InkubaLM 等项目则进一步验证了专用小规模模型在非洲语言上的实用性。这些工作共同推动了非洲语言计算领域的理论创新与技术落地。
数据集最近研究
最新研究方向
在非洲语言大模型研究领域,数据集构建正从通用语料收集转向高质量、任务导向的精细化发展。前沿研究聚焦于构建涵盖指令微调、安全对齐与复杂推理的专项数据集,以应对非洲语言资源稀缺的挑战。例如,AfriInstruct-Data和Inkuba-Instruct等大规模指令数据集通过整合翻译、分类与问答任务,显著提升了模型的多任务泛化能力。同时,WildJailbreak Africa等安全对齐数据集的引入,旨在降低模型在本地化应用中的伦理风险。这些努力不仅推动了如Aya等开源多语言模型的性能优化,也为全球自然语言处理技术的包容性发展提供了关键数据支撑,加速了非洲语言在数字时代的生态建设。
以上内容由遇见数据集搜集并总结生成



