ShkalikovOleh/europarl-ner

Name: ShkalikovOleh/europarl-ner
Creator: ShkalikovOleh
Published: 2024-06-07 15:11:05
License: 暂无描述

Hugging Face2024-06-07 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/ShkalikovOleh/europarl-ner

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含并行句子，标注了CONLL2003标签，可用于跨语言注释投影方法的评估，以进行跨语言命名实体识别。数据集包含四种语言（英语、德语、意大利语和西班牙语）的测试集，每语言包含799个句子，手动标注了四种实体类型，并遵循CoNLL 2002和2003的标注指南。

提供机构：

ShkalikovOleh

原始信息汇总

特征:
- tokens: 字符串序列
- ner_tags: 分类标签序列，包括 O, B-PER, I-PER, B-ORG, I-ORG, B-LOC, I-LOC, B-MISC, I-MISC

数据实例: python { tokens: ["Thank", "you", ",", "Mr", "Segni", ",", "I", "shall", "do", "so", "gladly", "."], ner_tags: [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0], }
数据字段:
- tokens: 字符串列表
- ner_tags: 分类标签列表

分割: 仅包含测试集 (test)
测试集大小:
- 英语 (en): 799 个样本, 374649 字节
- 德语 (de): 799 个样本, 363699 字节
- 西班牙语 (es): 799 个样本, 397365 字节
- 意大利语 (it): 799 个样本, 381584 字节

引用文献:
- Rodrigo Agerri, Yiling Chung, Itziar Aldabe, Nora Aranberri, Gorka Labaka and German Rigau (2018). Building Named Entity Recognition Taggers via Parallel Corpora. In Proceedings of the 11th Language Resources and Evaluation Conference (LREC 2018), 7-12 May, 2018, Miyazaki, Japan.
- Philipp Koehn, MT Summit 2005. Europarl: A Parallel Corpus for Statistical Machine Translation.

5,000+

优质数据集

54 个

任务类型

进入经典数据集