Babelscape/wikineural
收藏Hugging Face2022-11-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Babelscape/wikineural
下载链接
链接失效反馈官方服务:
资源简介:
WikiNEuRal数据集是一个用于多语言命名实体识别(NER)的训练数据集,涵盖了9种语言:荷兰语(nl)、英语(en)、法语(fr)、德语(de)、意大利语(it)、波兰语(pl)、葡萄牙语(pt)、俄语(ru)和西班牙语(es)。该数据集基于BabelNet多语言词汇知识库和BERT等基于Transformer的架构,通过一种新颖的技术自动生成高质量的NER训练数据。与现有的数据生成方法相比,该数据集在常见的NER基准测试中表现出显著的改进,最高可提升6个span-based F1分数。数据集的结构包括`tokens`(字符串列表)、`ner_tags`(分类标签列表)和`lang`(语言标识符)等字段。
提供机构:
Babelscape
原始信息汇总
数据集概述
基本信息
- 名称: WikiNEuRal-dataset
- 语言: 多语言(包括荷兰语、英语、法语、德语、意大利语、波兰语、葡萄牙语、俄语、西班牙语)
- 许可证: CC BY-NC-SA 4.0
- 数据来源: 原始数据
- 任务类型: 命名实体识别(NER)
- 标签创建者: 机器生成
- 语言创建者: 机器生成
数据集描述
- 摘要: WikiNEuRal 是一个利用多语言词汇知识库(如 BabelNet)和转换器架构(如 BERT)生成高质量多语言 NER 训练数据的新技术。该技术在常见的 NER 基准测试中,相比现有的数据生产方法,显示出高达6个跨度基础 F1 分数的改进。
数据集结构
-
数据字段:
tokens: 字符串列表ner_tags: 分类标签列表(整数)lang: 字符串,表示语言
-
标签集: python {O: 0, B-PER: 1, I-PER: 2, B-ORG: 3, I-ORG: 4, B-LOC: 5, I-LOC: 6, B-MISC: 7, I-MISC: 8}
-
语言列表: 荷兰语 (nl), 英语 (en), 法语 (fr), 德语 (de), 意大利语 (it), 波兰语 (pl), 葡萄牙语 (pt), 俄语 (ru), 西班牙语 (es)
数据集统计
- 统计数据: 显示每种语言的句子数量、令牌数量和每个类别的实例数量。
附加信息
- 许可证信息: 仅限于非商业研究目的,根据 CC BY-NC-SA 4.0 许可。
- 引用信息: 使用此数据集时,请引用相关研究。
- 贡献者: 感谢 @sted97 添加此数据集。
搜集汇总
背景与挑战
背景概述
WikiNEuRal数据集是一个专为多语言命名实体识别(NER)设计的训练数据集,涵盖9种语言,基于BabelNet和Transformer架构自动生成高质量数据。与现有方法相比,它在NER基准测试中实现了显著改进,最高可提升6个span-based F1分数。数据集包含tokens、ner_tags和lang等字段,支持多种语言的应用场景。
以上内容由遇见数据集搜集并总结生成



