five

masakhane/masakhaner

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/masakhane/masakhaner
下载链接
链接失效反馈
官方服务:
资源简介:
MasakhaNER是第一个公开的高质量命名实体识别(NER)数据集,涵盖了十种非洲语言。命名实体是包含人名、组织名、地名、时间和数量的短语。该数据集由Masakhane为十种非洲语言标注,包括阿姆哈拉语、豪萨语、伊博语、基尼亚卢旺达语、卢干达语、卢奥语、尼日利亚皮钦语、斯瓦希里语、沃洛夫语和约鲁巴语。数据集包含训练集、验证集和测试集。NER标签包括PER(人名)、ORG(组织名)、LOC(地名)和DATE(日期)。数据集的创建目的是为十种非洲语言提供新的自然语言处理资源。

MasakhaNER是第一个公开的高质量命名实体识别(NER)数据集,涵盖了十种非洲语言。命名实体是包含人名、组织名、地名、时间和数量的短语。该数据集由Masakhane为十种非洲语言标注,包括阿姆哈拉语、豪萨语、伊博语、基尼亚卢旺达语、卢干达语、卢奥语、尼日利亚皮钦语、斯瓦希里语、沃洛夫语和约鲁巴语。数据集包含训练集、验证集和测试集。NER标签包括PER(人名)、ORG(组织名)、LOC(地名)和DATE(日期)。数据集的创建目的是为十种非洲语言提供新的自然语言处理资源。
提供机构:
masakhane
原始信息汇总

数据集概述

数据集名称: MasakhaNER

语言:

  • Amharic (am)
  • Hausa (ha)
  • Igbo (ig)
  • Luganda (lg)
  • Luo (luo)
  • Nigerian-Pidgin (pcm)
  • Kinyarwanda (rw)
  • Swahili (sw)
  • Wolof (wo)
  • Yoruba (yo)

许可证: 未知

多语言性: 多语言

大小类别: 10K<n<100K

源数据集: 原始

任务类别: 词元分类

任务ID: 命名实体识别

数据集结构:

  • 特征:

    • id: 字符串类型
    • tokens: 字符串序列
    • ner_tags: 类别标签序列,包括O, B-PER, I-PER, B-ORG, I-ORG, B-LOC, I-LOC, B-DATE, I-DATE
  • 分割:

    • train: 训练集
    • validation: 验证集
    • test: 测试集

数据集大小:

语言 训练集 验证集 测试集
Amharic 1750 250 500
Hausa 1912 276 552
Igbo 2235 320 638
Kinyarwanda 2116 302 605
Luganda 1428 200 407
Luo 644 92 186
Nigerian-Pidgin 2124 306 600
Swahili 2109 300 604
Wolof 1871 267 539
Yoruba 2171 305 645

下载大小与数据集大小:

语言 下载大小 数据集大小
Amharic 571951 916935
Hausa 633372 1352322
Igbo 515415 1081960
Kinyarwanda 633024 1258382
Luganda 445755 865038
Luo 213281 446217
Nigerian-Pidgin 572054 1257243
Swahili 686313 1401791
Wolof 364463 865095
Yoruba 751510 1503675

任务: 命名实体识别 (NER),用于识别文本中的PER, ORG, LOC, DATE等实体。

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,非洲语言长期面临资源匮乏的挑战。MasakhaNER数据集的构建旨在填补这一空白,其构建过程体现了严谨的学术规范。该数据集从新闻领域采集原始文本,涵盖十个非洲语言。由Masakhane社区招募的专家级标注者,依据严格的命名实体识别标注准则,对文本中的人名、组织名、地名和日期实体进行了精细的序列标注。数据经过规范的预处理和分词,并划分为训练集、验证集和测试集,确保了数据质量与研究可用性。
使用方法
该数据集主要服务于命名实体识别任务的研究与模型开发。使用者可通过Hugging Face的`datasets`库,指定对应的语言代码(如`yor`代表约鲁巴语)加载特定子集。加载后的数据包含`id`、`tokens`和`ner_tags`三个核心字段,可直接用于序列标注模型的训练、验证与测试。研究者可利用其标准划分评估模型性能,通常采用精确匹配下的F1分数作为衡量指标。鉴于其新闻文本的领域特性,在应用于其他领域时需考虑领域适应性问题。
背景与挑战
背景概述
在自然语言处理领域,命名实体识别(NER)作为信息抽取的核心任务,对于理解文本语义结构至关重要。然而,长期以来,非洲语言因资源匮乏而面临研究空白。2021年,由Masakhane研究社区主导,联合全球多所学术机构的研究人员,共同创建了MasakhaNER数据集。该数据集聚焦于阿姆哈拉语、豪萨语、伊博语等十种非洲语言,旨在为这些低资源语言提供首个大规模、高质量的命名实体标注语料。其核心研究问题在于解决非洲语言在NER任务上缺乏基准数据集的困境,通过涵盖人物、组织、地点和日期四类实体,显著推动了多语言NLP技术的公平性发展,并为后续跨语言模型研究奠定了数据基础。
当前挑战
MasakhaNER数据集致力于应对非洲语言命名实体识别中的领域挑战,这些语言往往具有复杂的形态结构和独特的书写体系,导致实体边界模糊和标注一致性难以维持。在构建过程中,面临多重困难:一是数据收集的局限性,新闻文本作为主要来源,可能无法充分覆盖语言的口语化或方言变体;二是标注质量保障,依赖社区专家进行手动标注,需协调不同语言背景的标注者以确保标准统一;三是资源分配不均,部分语言样本量相对有限,影响了模型的泛化能力。此外,数据版权与使用限制(如CC 4.0非商业许可)也可能制约其在更广泛场景中的应用。
常用场景
经典使用场景
在自然语言处理领域,非洲语言长期以来面临资源匮乏的困境,MasakhaNER数据集为这一领域注入了新的活力。该数据集最经典的使用场景是作为命名实体识别任务的基准测试平台,研究者利用其涵盖的十种非洲语言文本,评估和比较不同模型在跨语言环境下的实体抽取性能。通过统一的标注规范和新闻领域语料,该数据集为多语言NER模型提供了标准化的训练与评估框架,推动了低资源语言处理技术的发展。
解决学术问题
MasakhaNER数据集有效解决了非洲语言在自然语言处理研究中长期存在的资源稀缺问题。该数据集通过提供高质量、大规模的多语言标注语料,为命名实体识别领域的算法研究提供了关键数据支撑。其意义在于打破了传统研究中以英语等主流语言为中心的局限,促进了语言技术公平性研究,并为低资源语言处理中的迁移学习、跨语言表示等前沿课题提供了实证基础,对推动全球语言技术生态的多元化发展产生了深远影响。
实际应用
在实际应用层面,MasakhaNER数据集为非洲地区的语言技术开发提供了重要基础设施。基于该数据集训练的命名实体识别系统,可广泛应用于非洲本土的新闻信息抽取、多语言搜索引擎优化、智能客服系统构建等领域。例如,在媒体行业,系统能够自动识别新闻文本中的人物、机构与地点,辅助内容分类与知识图谱构建;在公共服务领域,该技术有助于政府文档的自动化处理与多语言信息管理,切实提升了非洲地区数字化服务的能力与效率。
数据集最近研究
最新研究方向
在自然语言处理领域,非洲语言资源长期匮乏,MasakhaNER数据集的发布为十种非洲语言命名实体识别研究开辟了新路径。当前前沿研究聚焦于跨语言迁移学习与低资源语言模型优化,学者们利用该数据集探索多语言预训练模型在非洲语言上的适配性,以提升模型在实体识别任务中的泛化能力。随着全球对语言多样性的关注升温,该数据集推动了非洲语言计算语言学的发展,为构建包容性人工智能系统提供了关键数据支撑,其影响延伸至信息抽取、机器翻译等下游应用,促进了数字时代语言公平的学术讨论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作