five

Babelscape/wikineural

收藏
Hugging Face2022-11-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Babelscape/wikineural
下载链接
链接失效反馈
官方服务:
资源简介:
WikiNEuRal数据集是一个用于多语言命名实体识别(NER)的训练数据集,涵盖了9种语言:荷兰语(nl)、英语(en)、法语(fr)、德语(de)、意大利语(it)、波兰语(pl)、葡萄牙语(pt)、俄语(ru)和西班牙语(es)。该数据集基于BabelNet多语言词汇知识库和BERT等基于Transformer的架构,通过一种新颖的技术自动生成高质量的NER训练数据。与现有的数据生成方法相比,该数据集在常见的NER基准测试中表现出显著的改进,最高可提升6个span-based F1分数。数据集的结构包括`tokens`(字符串列表)、`ner_tags`(分类标签列表)和`lang`(语言标识符)等字段。
提供机构:
Babelscape
原始信息汇总

数据集概述

基本信息

  • 名称: WikiNEuRal-dataset
  • 语言: 多语言(包括荷兰语、英语、法语、德语、意大利语、波兰语、葡萄牙语、俄语、西班牙语)
  • 许可证: CC BY-NC-SA 4.0
  • 数据来源: 原始数据
  • 任务类型: 命名实体识别(NER)
  • 标签创建者: 机器生成
  • 语言创建者: 机器生成

数据集描述

  • 摘要: WikiNEuRal 是一个利用多语言词汇知识库(如 BabelNet)和转换器架构(如 BERT)生成高质量多语言 NER 训练数据的新技术。该技术在常见的 NER 基准测试中,相比现有的数据生产方法,显示出高达6个跨度基础 F1 分数的改进。

数据集结构

  • 数据字段:

    • tokens: 字符串列表
    • ner_tags: 分类标签列表(整数)
    • lang: 字符串,表示语言
  • 标签集: python {O: 0, B-PER: 1, I-PER: 2, B-ORG: 3, I-ORG: 4, B-LOC: 5, I-LOC: 6, B-MISC: 7, I-MISC: 8}

  • 语言列表: 荷兰语 (nl), 英语 (en), 法语 (fr), 德语 (de), 意大利语 (it), 波兰语 (pl), 葡萄牙语 (pt), 俄语 (ru), 西班牙语 (es)

数据集统计

  • 统计数据: 显示每种语言的句子数量、令牌数量和每个类别的实例数量。

附加信息

  • 许可证信息: 仅限于非商业研究目的,根据 CC BY-NC-SA 4.0 许可。
  • 引用信息: 使用此数据集时,请引用相关研究。
  • 贡献者: 感谢 @sted97 添加此数据集。
搜集汇总
背景与挑战
背景概述
WikiNEuRal数据集是一个专为多语言命名实体识别(NER)设计的训练数据集,涵盖9种语言,基于BabelNet和Transformer架构自动生成高质量数据。与现有方法相比,它在NER基准测试中实现了显著改进,最高可提升6个span-based F1分数。数据集包含tokens、ner_tags和lang等字段,支持多种语言的应用场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作