Ghanaian NLP Datasets

github2025-05-27 更新2025-06-13 收录

下载链接：

https://github.com/GhanaNLP/ghanaian-nlp-datasets-models

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库收集和整理了加纳语言的NLP数据集和模型，旨在支持加纳所有语言的自然语言处理研究和开发。

This repository collects and organizes NLP datasets and models for the Ghanaian languages, aiming to support natural language processing research and development for all languages in Ghana.

创建时间：

2025-05-25

原始信息汇总

加纳自然语言处理数据集与模型

概述

该仓库由Ghana NLP维护，旨在为加纳语言的自然语言处理研究和开发提供支持。包含多种加纳语言的数据集和模型。

语言与数据

阿坎语 (Akan, aka)

数据集

Twi-English Parallel Sentences
- 描述：Twi和英语对齐的翻译对
- 链接：https://huggingface.co/datasets/michsethowusu/english-twi_sentence-pairs
Fante Speech Transcribed
- 描述：多说话者语音转录数据集
- 链接：https://huggingface.co/datasets/michsethowusu/fante_multispeaker_audio_transcribed
Twi Transcribed (Verse Level)
- 描述：Asante Twi圣经单说话者转录数据集（按经文分割）
- 链接：https://huggingface.co/datasets/kojo-george/asante-twi-tts
Twi Transcribed (Utterance Level)
- 描述：Asante Twi圣经单说话者转录数据集（按话语分割）
- 链接：https://huggingface.co/datasets/Lagyamfi/asante_twi_bible

模型

ABENA
- 描述：Asante Twi和Akuapem Twi的BERT模型
- 链接：
  - Asante Twi Cased: https://huggingface.co/Ghana-NLP/abena-base-asante-twi-cased
  - Asante Twi Uncased: https://huggingface.co/Ghana-NLP/abena-base-asante-twi-uncased
  - DistilAbena Uncased: https://huggingface.co/Ghana-NLP/distilabena-base-asante-twi-uncased
  - Akuapem Twi Cased: https://huggingface.co/Ghana-NLP/distilabena-base-akuapem-twi-cased
Akan Whisper
- 描述：阿坎语语音识别模型
- 链接：https://huggingface.co/GiftMark/akan-whisper-model
Asante Twi Speech Recognition
- 描述：Asante Twi语音识别和转录模型
- 链接：https://huggingface.co/Ibaahjnr/Asanti_Twi_Model_V2.1

达格班尼语 (Dagbani, dag)

数据集

Dagbani Orthography
- 描述：拼写指南语料库
- 链接：无

模型

DagBERT
- 描述：语言建模
- 框架：Transformers
- 链接：无

加语 (Ga, gaa)

数据集

暂无数据

模型

暂无模型

待贡献语言

以下语言目前无数据，等待贡献：

Abron (abr)
Adamorobe Sign Language (ads)
Adangbe (adq)
Adele (ade)
Ahanta (aha)
等（完整列表见原数据集详情页）

贡献指南

Fork仓库
在正确的语言部分添加数据集或模型
提交带有清晰描述的Pull Request

许可

每个数据集或模型有其自己的许可，使用前请检查链接或联系维护者。

由Ghana NLP维护

搜集汇总

数据集介绍

构建方式

Ghanaian NLP Datasets的构建依托于社区协作模式，由Ghana NLP组织主导，系统性地收集加纳本土语言的文本与语音数据。数据集主要来源于圣经翻译、多说话人语音转录以及平行语料对齐等渠道，采用分语言、分任务的层级化架构。其中Akan语支的数据最为丰富，包含Twi-英语平行句对、Fante语多说话人语音转录文本及Asante Twi圣经单说话人语音切分数据，均通过人工校验确保质量。Dagbani语和Ga语的数据集尚在建设中，体现了渐进式构建策略。

使用方法

研究者可通过Hugging Face平台直接加载预处理数据集，如调用michsethowusu/english-twi_sentence-pairs获取平行语料。语音数据需配合相应声学模型使用，如GiftMark/akan-whisper-model支持Akan语音识别。对语言建模任务，推荐采用Ghana-NLP提供的ABENA系列BERT模型进行迁移学习。社区鼓励学者通过GitHub提交pull request补充新语种数据，或根据开源协议对现有数据进行标注增强。所有资源均标注明确许可协议，需遵循各子数据集的具体使用条款。

背景与挑战

背景概述

Ghanaian NLP Datasets是由Ghana NLP组织维护的一个专注于加纳本土语言自然语言处理的数据集集合，旨在推动加纳多种语言的NLP研究与开发。该数据集涵盖了阿肯语（Akan）、达格巴尼语（Dagbani）和加语（Ga）等多种语言，提供了包括平行语料库、语音转录文本和预训练模型等多种资源。Ghana NLP作为一个研究社区，致力于填补低资源语言在NLP领域的空白，为加纳本土语言的技术应用提供基础支持。

当前挑战

该数据集面临的主要挑战包括：1）领域问题的挑战，加纳本土语言属于低资源语言，缺乏大规模的标注数据，这使得模型训练和评估变得困难；2）构建过程中的挑战，数据收集和标注需要依赖本地语言专家，而部分语言的方言变体较多，统一标注标准存在难度。此外，部分语言尚未有任何数据资源，亟需社区贡献以完善数据集覆盖范围。

常用场景

经典使用场景

在非洲语言学研究领域，Ghanaian NLP Datasets为加纳本土语言（如阿坎语、达格巴尼语和加语）的自然语言处理任务提供了丰富的资源。该数据集广泛应用于机器翻译、语音识别和文本转录等任务，特别是在低资源语言环境中。例如，Twi-English平行句子数据集为双语翻译模型的训练提供了高质量的对齐语料，而Fante语音转录数据集则支持多说话人语音识别系统的开发。

解决学术问题

该数据集有效解决了低资源语言在自然语言处理研究中的数据稀缺问题。通过提供加纳本土语言的标注语料和预训练模型，研究者能够突破语言壁垒，开展跨语言迁移学习、语音合成和语言模型微调等前沿研究。ABENA系列BERT模型为阿坎语的语言理解任务提供了基准工具，填补了非洲语言预训练模型的空白。

实际应用

在实际应用中，这些数据集支撑了加纳本土语言的数字化服务开发。基于Twi圣经转录数据的语音合成系统可用于宗教文本的有声化，而Dagbani拼写指南语料库则为教育领域的拼写检查工具提供了基础。医疗、金融等行业的本地化应用也受益于这些语言资源的可用性，促进了信息技术的普惠发展。

数据集最近研究