tner/multinerd
收藏Hugging Face2022-09-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tner/multinerd
下载链接
链接失效反馈官方服务:
资源简介:
MultiNERD是一个多语言、多类别和细粒度的命名实体识别(NER)基准数据集,涵盖了10种语言、15个NER类别和2种文本类型。数据集的来源包括Wikipedia和WikiNews,包含18种实体类型。数据集的结构包括数据实例、标签ID和数据分割。
提供机构:
tner
原始信息汇总
数据集概述
基本信息
- 名称: MultiNERD
- 语言: 多语言(de, en, es, fr, it, nl, pl, pt, ru)
- 大小: 小于10K
- 任务类型: 词元分类
- 具体任务: 命名实体识别
数据集详情
- 领域: Wikipedia, WikiNews
- 实体数量: 18种
- 实体类型: PER, LOC, ORG, ANIM, BIO, CEL, DIS, EVE, FOOD, INST, MEDIA, PLANT, MYTH, TIME, VEHI, MISC, SUPER, PHY
数据结构
- 数据实例: 包含
tokens和tags字段,用于标记文本中的实体。 - 标签ID: 详细定义了各种实体类型的标签及其对应的ID。
数据分割
- 测试数据: 按语言划分,具体数量如下:
- de: 156792
- en: 164144
- es: 173189
- fr: 176185
- it: 181927
- nl: 171711
- pl: 194965
- pt: 177565
- ru: 82858
引用信息
- 论文: Tedeschi, Simone and Navigli, Roberto. "MultiNERD: A Multilingual, Multi-Genre and Fine-Grained Dataset for Named Entity Recognition (and Disambiguation)". Findings of the Association for Computational Linguistics: NAACL 2022.



