five

ShkalikovOleh/europarl-ner

收藏
Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ShkalikovOleh/europarl-ner
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含并行句子,标注了CONLL2003标签,可用于跨语言注释投影方法的评估,以进行跨语言命名实体识别。数据集包含四种语言(英语、德语、意大利语和西班牙语)的测试集,每语言包含799个句子,手动标注了四种实体类型,并遵循CoNLL 2002和2003的标注指南。

该数据集包含并行句子,标注了CONLL2003标签,可用于跨语言注释投影方法的评估,以进行跨语言命名实体识别。数据集包含四种语言(英语、德语、意大利语和西班牙语)的测试集,每语言包含799个句子,手动标注了四种实体类型,并遵循CoNLL 2002和2003的标注指南。
提供机构:
ShkalikovOleh
原始信息汇总

数据集概述

数据集名称

  • 名称: Europarl-ner

数据集语言

  • 支持语言: 英语 (en), 德语 (de), 意大利语 (it), 西班牙语 (es)

数据集任务

  • 任务类别: 词元分类 (token-classification)
  • 具体任务: 命名实体识别 (NER), 跨语言命名实体识别 (cross-lingual-ner)

数据集特征

  • 特征:
    • tokens: 字符串序列
    • ner_tags: 分类标签序列,包括 O, B-PER, I-PER, B-ORG, I-ORG, B-LOC, I-LOC, B-MISC, I-MISC

数据集结构

  • 数据实例: python { tokens: ["Thank", "you", ",", "Mr", "Segni", ",", "I", "shall", "do", "so", "gladly", "."], ner_tags: [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0], }

  • 数据字段:

    • tokens: 字符串列表
    • ner_tags: 分类标签列表

数据集分割

  • 分割: 仅包含测试集 (test)
  • 测试集大小:
    • 英语 (en): 799 个样本, 374649 字节
    • 德语 (de): 799 个样本, 363699 字节
    • 西班牙语 (es): 799 个样本, 397365 字节
    • 意大利语 (it): 799 个样本, 381584 字节

许可证信息

  • 许可证名称: europarl-custom
  • 许可证链接: https://www.statmt.org/europarl/

引用信息

  • 引用文献:
    • Rodrigo Agerri, Yiling Chung, Itziar Aldabe, Nora Aranberri, Gorka Labaka and German Rigau (2018). Building Named Entity Recognition Taggers via Parallel Corpora. In Proceedings of the 11th Language Resources and Evaluation Conference (LREC 2018), 7-12 May, 2018, Miyazaki, Japan.
    • Philipp Koehn, MT Summit 2005. Europarl: A Parallel Corpus for Statistical Machine Translation.
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作