tner/wikineural
收藏Hugging Face2022-09-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tner/wikineural
下载链接
链接失效反馈官方服务:
资源简介:
WikiNeural数据集是一个多语言的命名实体识别(NER)任务数据集,基于Wikipedia文本,包含16种实体类型。该数据集是TNER项目的一部分,支持多种语言,包括德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语和俄语。数据集的规模在10K到100K之间,适用于token分类任务。数据集的实体类型包括PER(人物)、LOC(地点)、ORG(组织)、ANIM(动物)、BIO(生物)、CEL(天体)、DIS(疾病)、EVE(事件)、FOOD(食物)、INST(机构)、MEDIA(媒体)、PLANT(植物)、MYTH(神话)、TIME(时间)、VEHI(交通工具)和MISC(其他)。数据集的结构包括训练集、验证集和测试集,每种语言的数据量有所不同。
提供机构:
tner
原始信息汇总
数据集概述
基本信息
- 名称: WikiNeural
- 语言: 多语言(包括德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、葡萄牙语、俄语)
- 大小: 10K<100k
- 任务类型: 词元分类
- 任务ID: 命名实体识别
数据集详情
- 领域: 维基百科
- 实体数量: 16
- 实体类型:
PER,LOC,ORG,ANIM,BIO,CEL,DIS,EVE,FOOD,INST,MEDIA,PLANT,MYTH,TIME,VEHI,MISC
数据结构
- 数据实例: 示例包括
tokens和tags,如德语训练集的示例所示。 - 标签ID: 标签与ID的映射关系可在指定链接中找到。
数据分割
| 语言 | 训练 | 验证 | 测试 |
|---|---|---|---|
| 德语 | 98640 | 12330 | 12372 |
| 英语 | 92720 | 11590 | 11597 |
| 西班牙语 | 76320 | 9540 | 9618 |
| 法语 | 100800 | 12600 | 12678 |
| 意大利语 | 88400 | 11050 | 11069 |
| 荷兰语 | 83680 | 10460 | 10547 |
| 波兰语 | 108160 | 13520 | 13585 |
| 葡萄牙语 | 80560 | 10070 | 10160 |
| 俄语 | 92320 | 11540 | 11580 |
引用信息
- 论文标题: WikiNEural: Combined Neural and Knowledge-based Silver Data Creation for Multilingual NER
- 作者: Tedeschi, Simone 等
- 出版信息: Findings of the Association for Computational Linguistics: EMNLP 2021



