AfricaNLP-Public-Datasets

github2024-04-26 更新2024-05-31 收录

下载链接：

https://github.com/Andrews2017/africanlp-public-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含多种非洲语言的自然语言处理（NLP）公共数据集的仓库。

A repository of public datasets for natural language processing (NLP) encompassing a variety of African languages.

创建时间：

2021-05-01

原始信息汇总

数据集概述

机器翻译

TANZIL: 包含42种语言的翻译古兰经，包括Amharic, Hausa, Somali, Swahili等非洲语言。
MENYO-20k: Yorùbá-English多领域平行文本数据集。
FFR: Fon-French平行文本数据集。
Hausa Corpus: Hausa-English平行文本数据集。
CCAligned: 包含英语和137种语言的平行文本数据集，包括30种非洲语言。
ParaCrawl: 包含41种语言的平行文本数据集，包括Somali和Swahili。
WikiMatrix: 包含85种语言的平行文本数据集，包括Swahili, Malagasy, Egyptian Arabic。
Ethiopian MT datasets: 包含英语与7种埃塞俄比亚语言的平行文本数据集。
English-Luganda: 英语-Luganda平行文本数据集。
French-Fon and French-Ewe: 法语与Fon和Ewe的平行文本数据集。
Amharic-English: Amharic-English平行文本数据集。
Tigrinya-English: Tigrinya-English平行文本数据集（需免费注册）。
Lingala-French: Lingala-English平行文本数据集（需免费注册）。
Congolese Swahili-French: 刚果Swahili-French平行文本数据集（需免费注册）。
Swahili-French: 合成Swahili-French平行文本数据集（需免费注册）。
English-Hausa: 英语-Hausa平行文本数据集（需免费注册）。
English-Swahili: 英语-Swahili平行文本数据集（需免费注册）。
English-Kanuri: 英语-Kanuri平行文本数据集（需免费注册）。
English-Akuapem Twi: 英语-Akwapem Twi平行文本数据集。
FLORES-101: 包含101种语言的平行文本数据集，包括20种非洲语言。
isiXhosa-English: isiXhosa-English平行文本数据集。
Tatoeba: 包含409种语言的平行文本数据集，包括28种非洲语言。
Gnome: 技术领域包含197种语言的平行文本数据集，包括16种非洲语言。
Ubuntu: 技术领域包含244种语言的平行文本数据集，包括24种非洲语言。
OPUS-100: 包含100种语言的平行文本数据集，包括9种非洲语言。
TICO-19: 包含37种语言的COVID-19领域平行文本数据集，包括13种非洲语言。
Mozila localization: 包含197种语言的平行文本数据集，包括18种非洲语言。

文本分类

KINNEWS and KIRNEWS: 新闻分类数据集，包括Kinyarwanda (KINNEWS) 和 Kirundi (KIRNEWS)。
Setswana and Sepedi: 新闻分类数据集，包括Setswana和Sepedi。
Swahili News: 斯瓦希里语新闻分类数据集。
Amharic News Text classification: 阿姆哈拉语新闻文本分类数据集。
VOA Hausa and BBC Yoruba news classification: 新闻标题分类数据集，包括Hausa和Yoruba。

情感分析

TUNIZI: 突尼斯阿拉伯语情感分析数据集。
NaijaSenti: 情感分析数据集，包括Hausa, Igbo, Yoruba, 和 Nigerian Pidgin。

文本摘要

Amharic Summarization: 阿姆哈拉语抽象文本摘要数据集。
XL-Sum: 多语言抽象文本摘要数据集，包括10种非洲语言。

命名实体识别

MasakhaNER: 包含10种非洲语言的命名实体识别数据集。
WikiANN: 包含282种语言的命名实体识别数据集，包括多种非洲语言。
Yoruba GV NER: 约鲁巴语命名实体识别数据集。
Hausa VOA NER: 豪萨语命名实体识别数据集。

自动语音识别（ASR）

ALFFA: 包含Amharic, Hausa, Swahili, Wolof的ASR数据集。
AMMI ASR dataset: 包含19种语言的ASR数据集，包括16种非洲语言。
CommonVoice: 包含60种语言的ASR数据集，包括Kinyarwanda, Kabyle, Luganda, Hausa。
Fon: Fon语ASR数据集。
Swahili: 斯瓦希里语语音数据集（需免费注册）。
Congolese Swahili: 刚果斯瓦希里语语音数据集（需免费注册）。
BembaSpeech: Bemba语ASR数据集。
SPCS Speech: Sepedi语语音数据集。
SADiLaR TTS: 包含Afrikaans, Sesotho, Setswana, isiXhosa的ASR数据集。
NCHLT Speech: 包含南非11种官方语言的语音数据集。
IARPA Babel Swahili data: 斯瓦希里语ASR数据集（需支付$25）。

语音翻译

Mboshi: Mboshi-French平行语音数据集。
IWSLT 2021 Speech Translation: 包含Swahili-English和Congolese Swahili-French的语音翻译数据集。

单语数据

Swahili Language Modeling: 斯瓦希里语语言建模数据集。
OSCAR: 包含166种语言的多语言数据集，包括Amharic, Somalia, Yoruba, Egyptian Arabic, Malagasy, Swahili, Afrikaans。
Luganda Agriculture data: 包含Luganda语农业领域的数据集，来自Bukedde和Wikipedia。
isiXhosa: 包含isiXhosa语的单语数据集。
mC4: 包含101种语言的多语言数据集，包括13种非洲语言。
MOT v1.0: 包含44种语言的多语言数据集，包括11种非洲语言。

音标词典

ipa-dict: 包含23种语言的音标词典，包括Swahili。
za-lex: 包含6种南非语言的词汇发音数据集。

聊天机器人（对话AI）数据

AfriWOZ1.0: 包含6种非洲语言的对话数据集，用于训练聊天机器人或对话AI。

搜集汇总

数据集介绍

构建方式

AfricaNLP-Public-Datasets 数据集的构建方式主要通过收集和整理非洲语言的自然语言处理（NLP）数据集。这些数据集涵盖了多种任务，如机器翻译、文本分类、情感分析、文本摘要、命名实体识别、自动语音识别（ASR）和语音翻译等。数据来源广泛，包括公开的平行文本、新闻分类数据、情感分析数据、语音数据等。每个数据集都经过精心挑选和整理，以确保其质量和可用性。

特点

AfricaNLP-Public-Datasets 数据集的主要特点是其多样性和覆盖广泛的语言种类。该数据集包含了多种非洲语言，如阿姆哈拉语、豪萨语、斯瓦希里语、约鲁巴语等，涵盖了从机器翻译到语音识别的多种NLP任务。此外，数据集的多样性还体现在其涵盖了不同的领域，如新闻、农业、宗教文本等，为研究者提供了丰富的资源。

使用方法

AfricaNLP-Public-Datasets 数据集的使用方法相对简单。用户可以根据自己的研究需求选择合适的数据集，下载后进行预处理和模型训练。对于机器翻译任务，用户可以选择平行文本数据集；对于文本分类任务，可以选择新闻分类数据集。数据集的多样性使得用户可以根据具体任务选择最合适的数据集，从而提高模型的性能和准确性。

背景与挑战

背景概述

非洲语言的自然语言处理（NLP）研究近年来逐渐受到关注，尤其是在机器翻译、文本分类和情感分析等领域。AfricaNLP-Public-Datasets数据集的创建旨在为非洲语言提供公开可用的NLP数据资源，涵盖了多种非洲语言的平行文本、新闻分类、情感分析、命名实体识别等多个任务。该数据集由多个研究机构和研究人员共同贡献，包括但不限于Masakhane社区、Makerere大学AI实验室等。其核心研究问题在于如何利用这些数据集推动非洲语言在NLP领域的应用与发展，尤其是在资源匮乏的语言中实现高效的机器翻译和文本处理。该数据集的发布对非洲语言的NLP研究具有重要意义，为相关领域的研究人员提供了宝贵的资源。

当前挑战

AfricaNLP-Public-Datasets面临的主要挑战之一是非洲语言的多样性和资源匮乏问题。许多非洲语言缺乏足够的语料库和标注数据，导致模型训练的难度增加。此外，非洲语言的语法结构和词汇多样性也为机器翻译和文本分类带来了复杂性。在构建过程中，研究人员需要克服数据收集、清洗和标注的困难，尤其是对于一些使用人数较少的语言，数据的获取和处理成本较高。另一个挑战是如何确保这些数据集的多样性和代表性，以覆盖尽可能多的非洲语言，从而推动整个非洲语言NLP领域的发展。

常用场景

经典使用场景

AfricaNLP-Public-Datasets 数据集在自然语言处理领域中具有广泛的应用场景，尤其是在非洲语言的机器翻译任务中表现尤为突出。该数据集包含了多种非洲语言与英语、法语等主要语言之间的平行文本数据，如TANZIL、MENYO-20k、FFR等，这些数据为构建高质量的机器翻译模型提供了坚实的基础。此外，数据集还涵盖了文本分类、情感分析、命名实体识别等多个NLP任务，为非洲语言的语义理解和信息提取提供了丰富的资源。

解决学术问题

AfricaNLP-Public-Datasets 数据集解决了非洲语言在自然语言处理领域中长期面临的资源匮乏问题。由于非洲语言的语料库相对稀缺，许多研究工作难以展开。该数据集通过提供大规模的平行文本、分类数据和情感分析数据，极大地推动了非洲语言在机器翻译、文本分类和情感分析等领域的研究进展。这不仅丰富了非洲语言的NLP研究，也为跨语言交流和文化传播提供了重要的技术支持。

衍生相关工作

基于 AfricaNLP-Public-Datasets 数据集，许多研究工作得以展开，并衍生出了一系列经典的研究成果。例如，MasakhaNER 数据集基于该数据集的命名实体识别任务，推动了非洲语言在NER领域的研究。此外，XL-Sum 数据集则利用该数据集的多语言摘要数据，开发了多语言摘要生成模型。这些衍生工作不仅丰富了非洲语言的NLP研究，也为全球多语言处理技术的发展提供了宝贵的经验。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集