masakhane/masakhaner

Name: masakhane/masakhaner
Creator: masakhane
Published: 2024-01-18 11:08:34
License: 暂无描述

Hugging Face2024-01-18 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/masakhane/masakhaner

下载链接

链接失效反馈

官方服务：

资源简介：

MasakhaNER是第一个公开的高质量命名实体识别（NER）数据集，涵盖了十种非洲语言。命名实体是包含人名、组织名、地名、时间和数量的短语。该数据集由Masakhane为十种非洲语言标注，包括阿姆哈拉语、豪萨语、伊博语、基尼亚卢旺达语、卢干达语、卢奥语、尼日利亚皮钦语、斯瓦希里语、沃洛夫语和约鲁巴语。数据集包含训练集、验证集和测试集。NER标签包括PER（人名）、ORG（组织名）、LOC（地名）和DATE（日期）。数据集的创建目的是为十种非洲语言提供新的自然语言处理资源。

提供机构：

masakhane

原始信息汇总

数据集概述

数据集名称: MasakhaNER

语言:

Amharic (am)
Hausa (ha)
Igbo (ig)
Luganda (lg)
Luo (luo)
Nigerian-Pidgin (pcm)
Kinyarwanda (rw)
Swahili (sw)
Wolof (wo)
Yoruba (yo)

许可证: 未知

多语言性: 多语言

大小类别: 10K<n<100K

源数据集: 原始

任务类别: 词元分类

任务ID: 命名实体识别

数据集结构:

特征:
- id: 字符串类型
- tokens: 字符串序列
- ner_tags: 类别标签序列，包括O, B-PER, I-PER, B-ORG, I-ORG, B-LOC, I-LOC, B-DATE, I-DATE
分割:
- train: 训练集
- validation: 验证集
- test: 测试集

数据集大小:

语言	训练集	验证集	测试集
Amharic	1750	250	500
Hausa	1912	276	552
Igbo	2235	320	638
Kinyarwanda	2116	302	605
Luganda	1428	200	407
Luo	644	92	186
Nigerian-Pidgin	2124	306	600
Swahili	2109	300	604
Wolof	1871	267	539
Yoruba	2171	305	645

下载大小与数据集大小:

语言	下载大小	数据集大小
Amharic	571951	916935
Hausa	633372	1352322
Igbo	515415	1081960
Kinyarwanda	633024	1258382
Luganda	445755	865038
Luo	213281	446217
Nigerian-Pidgin	572054	1257243
Swahili	686313	1401791
Wolof	364463	865095
Yoruba	751510	1503675

任务: 命名实体识别 (NER)，用于识别文本中的PER, ORG, LOC, DATE等实体。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，非洲语言长期面临资源匮乏的挑战。MasakhaNER数据集的构建旨在填补这一空白，其构建过程体现了严谨的学术规范。该数据集从新闻领域采集原始文本，涵盖十个非洲语言。由Masakhane社区招募的专家级标注者，依据严格的命名实体识别标注准则，对文本中的人名、组织名、地名和日期实体进行了精细的序列标注。数据经过规范的预处理和分词，并划分为训练集、验证集和测试集，确保了数据质量与研究可用性。

使用方法

该数据集主要服务于命名实体识别任务的研究与模型开发。使用者可通过Hugging Face的`datasets`库，指定对应的语言代码（如`yor`代表约鲁巴语）加载特定子集。加载后的数据包含`id`、`tokens`和`ner_tags`三个核心字段，可直接用于序列标注模型的训练、验证与测试。研究者可利用其标准划分评估模型性能，通常采用精确匹配下的F1分数作为衡量指标。鉴于其新闻文本的领域特性，在应用于其他领域时需考虑领域适应性问题。

背景与挑战

背景概述

在自然语言处理领域，命名实体识别（NER）作为信息抽取的核心任务，对于理解文本语义结构至关重要。然而，长期以来，非洲语言因资源匮乏而面临研究空白。2021年，由Masakhane研究社区主导，联合全球多所学术机构的研究人员，共同创建了MasakhaNER数据集。该数据集聚焦于阿姆哈拉语、豪萨语、伊博语等十种非洲语言，旨在为这些低资源语言提供首个大规模、高质量的命名实体标注语料。其核心研究问题在于解决非洲语言在NER任务上缺乏基准数据集的困境，通过涵盖人物、组织、地点和日期四类实体，显著推动了多语言NLP技术的公平性发展，并为后续跨语言模型研究奠定了数据基础。

当前挑战

MasakhaNER数据集致力于应对非洲语言命名实体识别中的领域挑战，这些语言往往具有复杂的形态结构和独特的书写体系，导致实体边界模糊和标注一致性难以维持。在构建过程中，面临多重困难：一是数据收集的局限性，新闻文本作为主要来源，可能无法充分覆盖语言的口语化或方言变体；二是标注质量保障，依赖社区专家进行手动标注，需协调不同语言背景的标注者以确保标准统一；三是资源分配不均，部分语言样本量相对有限，影响了模型的泛化能力。此外，数据版权与使用限制（如CC 4.0非商业许可）也可能制约其在更广泛场景中的应用。

常用场景

经典使用场景

在自然语言处理领域，非洲语言长期以来面临资源匮乏的困境，MasakhaNER数据集为这一领域注入了新的活力。该数据集最经典的使用场景是作为命名实体识别任务的基准测试平台，研究者利用其涵盖的十种非洲语言文本，评估和比较不同模型在跨语言环境下的实体抽取性能。通过统一的标注规范和新闻领域语料，该数据集为多语言NER模型提供了标准化的训练与评估框架，推动了低资源语言处理技术的发展。

解决学术问题

MasakhaNER数据集有效解决了非洲语言在自然语言处理研究中长期存在的资源稀缺问题。该数据集通过提供高质量、大规模的多语言标注语料，为命名实体识别领域的算法研究提供了关键数据支撑。其意义在于打破了传统研究中以英语等主流语言为中心的局限，促进了语言技术公平性研究，并为低资源语言处理中的迁移学习、跨语言表示等前沿课题提供了实证基础，对推动全球语言技术生态的多元化发展产生了深远影响。

实际应用

在实际应用层面，MasakhaNER数据集为非洲地区的语言技术开发提供了重要基础设施。基于该数据集训练的命名实体识别系统，可广泛应用于非洲本土的新闻信息抽取、多语言搜索引擎优化、智能客服系统构建等领域。例如，在媒体行业，系统能够自动识别新闻文本中的人物、机构与地点，辅助内容分类与知识图谱构建；在公共服务领域，该技术有助于政府文档的自动化处理与多语言信息管理，切实提升了非洲地区数字化服务的能力与效率。

数据集最近研究