five

tner/wikineural

收藏
Hugging Face2022-09-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tner/wikineural
下载链接
链接失效反馈
官方服务:
资源简介:
WikiNeural数据集是一个多语言的命名实体识别(NER)任务数据集,基于Wikipedia文本,包含16种实体类型。该数据集是TNER项目的一部分,支持多种语言,包括德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语和俄语。数据集的规模在10K到100K之间,适用于token分类任务。数据集的实体类型包括PER(人物)、LOC(地点)、ORG(组织)、ANIM(动物)、BIO(生物)、CEL(天体)、DIS(疾病)、EVE(事件)、FOOD(食物)、INST(机构)、MEDIA(媒体)、PLANT(植物)、MYTH(神话)、TIME(时间)、VEHI(交通工具)和MISC(其他)。数据集的结构包括训练集、验证集和测试集,每种语言的数据量有所不同。
提供机构:
tner
原始信息汇总

数据集概述

基本信息

  • 名称: WikiNeural
  • 语言: 多语言(包括德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语)
  • 大小: 10K<100k
  • 任务类型: 词元分类
  • 任务ID: 命名实体识别

数据集详情

  • 领域: 维基百科
  • 实体数量: 16
  • 实体类型: PER, LOC, ORG, ANIM, BIO, CEL, DIS, EVE, FOOD, INST, MEDIA, PLANT, MYTH, TIME, VEHI, MISC

数据结构

  • 数据实例: 示例包括tokenstags,如德语训练集的示例所示。
  • 标签ID: 标签与ID的映射关系可在指定链接中找到。

数据分割

语言 训练 验证 测试
德语 98640 12330 12372
英语 92720 11590 11597
西班牙语 76320 9540 9618
法语 100800 12600 12678
意大利语 88400 11050 11069
荷兰语 83680 10460 10547
波兰语 108160 13520 13585
葡萄牙语 80560 10070 10160
俄语 92320 11540 11580

引用信息

  • 论文标题: WikiNEural: Combined Neural and Knowledge-based Silver Data Creation for Multilingual NER
  • 作者: Tedeschi, Simone 等
  • 出版信息: Findings of the Association for Computational Linguistics: EMNLP 2021
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作