five

tner/multinerd

收藏
Hugging Face2022-09-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tner/multinerd
下载链接
链接失效反馈
官方服务:
资源简介:
MultiNERD是一个多语言、多类别和细粒度的命名实体识别(NER)基准数据集,涵盖了10种语言、15个NER类别和2种文本类型。数据集的来源包括Wikipedia和WikiNews,包含18种实体类型。数据集的结构包括数据实例、标签ID和数据分割。
提供机构:
tner
原始信息汇总

数据集概述

基本信息

  • 名称: MultiNERD
  • 语言: 多语言(de, en, es, fr, it, nl, pl, pt, ru)
  • 大小: 小于10K
  • 任务类型: 词元分类
  • 具体任务: 命名实体识别

数据集详情

  • 领域: Wikipedia, WikiNews
  • 实体数量: 18种
  • 实体类型: PER, LOC, ORG, ANIM, BIO, CEL, DIS, EVE, FOOD, INST, MEDIA, PLANT, MYTH, TIME, VEHI, MISC, SUPER, PHY

数据结构

  • 数据实例: 包含tokenstags字段,用于标记文本中的实体。
  • 标签ID: 详细定义了各种实体类型的标签及其对应的ID。

数据分割

  • 测试数据: 按语言划分,具体数量如下:
    • de: 156792
    • en: 164144
    • es: 173189
    • fr: 176185
    • it: 181927
    • nl: 171711
    • pl: 194965
    • pt: 177565
    • ru: 82858

引用信息

  • 论文: Tedeschi, Simone and Navigli, Roberto. "MultiNERD: A Multilingual, Multi-Genre and Fine-Grained Dataset for Named Entity Recognition (and Disambiguation)". Findings of the Association for Computational Linguistics: NAACL 2022.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作