MasakhaNER
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/MasakhaNER
下载链接
链接失效反馈官方服务:
资源简介:
MasakhaNER 是 10 种不同非洲语言的命名实体识别 (NER) 数据集的集合。该存储库包含用于训练 NER 模型的代码、用于分析 NER 模型预测的脚本以及下面列出的所有 10 种语言的 NER 数据集。形成该数据集的语言是:阿姆哈拉语、豪萨语、伊博语、基尼亚卢旺达语、卢干达语、罗语、尼日利亚语-洋泾浜语、斯瓦希里语、沃洛夫语和约鲁巴语。
提供机构:
OpenDataLab
创建时间:
2022-05-09
搜集汇总
数据集介绍

背景与挑战
背景概述
MasakhaNER是一个针对10种非洲语言的大规模公开命名实体识别数据集,由乔治梅森大学于2021年发布,旨在推动非洲自然语言处理研究。该数据集包含阿姆哈拉语、豪萨语等多种语言的高质量标注数据,支持NER模型的训练与评估。
以上内容由遇见数据集搜集并总结生成



