Babelscape/wikineural

Name: Babelscape/wikineural
Creator: Babelscape
Published: 2022-11-13 07:52:46
License: 暂无描述

Hugging Face2022-11-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Babelscape/wikineural

下载链接

链接失效反馈

官方服务：

资源简介：

WikiNEuRal数据集是一个用于多语言命名实体识别（NER）的训练数据集，涵盖了9种语言：荷兰语（nl）、英语（en）、法语（fr）、德语（de）、意大利语（it）、波兰语（pl）、葡萄牙语（pt）、俄语（ru）和西班牙语（es）。该数据集基于BabelNet多语言词汇知识库和BERT等基于Transformer的架构，通过一种新颖的技术自动生成高质量的NER训练数据。与现有的数据生成方法相比，该数据集在常见的NER基准测试中表现出显著的改进，最高可提升6个span-based F1分数。数据集的结构包括`tokens`（字符串列表）、`ner_tags`（分类标签列表）和`lang`（语言标识符）等字段。

提供机构：

Babelscape

原始信息汇总

数据集概述

基本信息

名称: WikiNEuRal-dataset
语言: 多语言（包括荷兰语、英语、法语、德语、意大利语、波兰语、葡萄牙语、俄语、西班牙语）
许可证: CC BY-NC-SA 4.0
数据来源: 原始数据
任务类型: 命名实体识别（NER）
标签创建者: 机器生成
语言创建者: 机器生成

数据集描述

摘要: WikiNEuRal 是一个利用多语言词汇知识库（如 BabelNet）和转换器架构（如 BERT）生成高质量多语言 NER 训练数据的新技术。该技术在常见的 NER 基准测试中，相比现有的数据生产方法，显示出高达6个跨度基础 F1 分数的改进。

数据集结构

数据字段:
- tokens: 字符串列表
- ner_tags: 分类标签列表（整数）
- lang: 字符串，表示语言
标签集: python {O: 0, B-PER: 1, I-PER: 2, B-ORG: 3, I-ORG: 4, B-LOC: 5, I-LOC: 6, B-MISC: 7, I-MISC: 8}
语言列表: 荷兰语 (nl), 英语 (en), 法语 (fr), 德语 (de), 意大利语 (it), 波兰语 (pl), 葡萄牙语 (pt), 俄语 (ru), 西班牙语 (es)

数据集统计

统计数据: 显示每种语言的句子数量、令牌数量和每个类别的实例数量。

附加信息

许可证信息: 仅限于非商业研究目的，根据 CC BY-NC-SA 4.0 许可。
引用信息: 使用此数据集时，请引用相关研究。
贡献者: 感谢 @sted97 添加此数据集。

搜集汇总

背景与挑战

背景概述

WikiNEuRal数据集是一个专为多语言命名实体识别（NER）设计的训练数据集，涵盖9种语言，基于BabelNet和Transformer架构自动生成高质量数据。与现有方法相比，它在NER基准测试中实现了显著改进，最高可提升6个span-based F1分数。数据集包含tokens、ner_tags和lang等字段，支持多种语言的应用场景。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集