five

bassie96code/Label_lijsten

收藏
Hugging Face2023-11-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bassie96code/Label_lijsten
下载链接
链接失效反馈
官方服务:
资源简介:
CoNLL-2003数据集用于语言独立的命名实体识别任务,专注于四种类型的命名实体:人名、地名、组织名和其他不属于前三类的实体。数据文件包含四列,分别表示单词、词性标签、句法块标签和命名实体标签。数据集使用IOB2标记方案,原始数据文件中的`-DOCSTART-`行在此实现中被移除。
提供机构:
bassie96code
原始信息汇总

数据集卡片 for "conll2003"

数据集描述

数据集概述

CoNLL-2003共享任务涉及语言无关的命名实体识别。我们将关注四种类型的命名实体:人、地点、组织和不属于前三种类别的杂项实体名称。

CoNLL-2003共享任务数据文件包含四列,由单个空格分隔。每个单词放在单独的行上,每个句子后有一个空行。每行的第一项是一个单词,第二项是词性(POS)标签,第三项是句法块标签,第四项是命名实体标签。块标签和命名实体标签的格式为I-TYPE,表示该单词在类型为TYPE的短语内部。只有当两个相同类型的短语紧接在一起时,第二个短语的第一个单词将具有标签B-TYPE,表示它开始一个新的短语。具有标签O的单词不属于任何短语。请注意,该数据集使用IOB2标记方案,而原始数据集使用IOB1。

支持的任务和排行榜

更多信息需要

语言

更多信息需要

数据集结构

数据实例

conll2003

  • 下载的数据集文件大小: 4.85 MB
  • 生成的数据集大小: 10.26 MB
  • 磁盘总使用量: 15.11 MB

train的一个示例如下:

json { "chunk_tags": [11, 12, 12, 21, 13, 11, 11, 21, 13, 11, 12, 13, 11, 21, 22, 11, 12, 17, 11, 21, 17, 11, 12, 12, 21, 22, 22, 13, 11, 0], "id": "0", "ner_tags": [0, 3, 4, 0, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], "pos_tags": [12, 22, 22, 38, 15, 22, 28, 38, 15, 16, 21, 35, 24, 35, 37, 16, 21, 15, 24, 41, 15, 16, 21, 21, 20, 37, 40, 35, 21, 7], "tokens": ["The", "European", "Commission", "said", "on", "Thursday", "it", "disagreed", "with", "German", "advice", "to", "consumers", "to", "shun", "British", "lamb", "until", "scientists", "determine", "whether", "mad", "cow", "disease", "can", "be", "transmitted", "to", "sheep", "."] }

原始数据文件使用-DOCSTART-行来分隔文档,但这些行在此处被移除。实际上,-DOCSTART-是一个特殊行,作为两个不同文档之间的边界,在此实现中被过滤掉。

数据字段

所有拆分的数据字段相同。

conll2003

  • id:一个string特征。
  • tokens:一个liststring特征。
  • pos_tags:一个list的分类标签(int)。完整的标签集及其索引:

python {": 0, "": 1, #: 2, $: 3, (: 4, ): 5, ,: 6, .: 7, :: 8, ``: 9, CC: 10, CD: 11, DT: 12, EX: 13, FW: 14, IN: 15, JJ: 16, JJR: 17, JJS: 18, LS: 19, MD: 20, NN: 21, NNP: 22, NNPS: 23, NNS: 24, NN|SYM: 25, PDT: 26, POS: 27, PRP: 28, PRP$: 29, RB: 30, RBR: 31, RBS: 32, RP: 33, SYM: 34, TO: 35, UH: 36, VB: 37, VBD: 38, VBG: 39, VBN: 40, VBP: 41, VBZ: 42, WDT: 43, WP: 44, WP$: 45, WRB: 46}

  • chunk_tags:一个list的分类标签(int)。完整的标签集及其索引:

python {O: 0, B-ADJP: 1, I-ADJP: 2, B-ADVP: 3, I-ADVP: 4, B-CONJP: 5, I-CONJP: 6, B-INTJ: 7, I-INTJ: 8, B-LST: 9, I-LST: 10, B-NP: 11, I-NP: 12, B-PP: 13, I-PP: 14, B-PRT: 15, I-PRT: 16, B-SBAR: 17, I-SBAR: 18, B-UCP: 19, I-UCP: 20, B-VP: 21, I-VP: 22}

  • ner_tags:一个list的分类标签(int)。完整的标签集及其索引:

python {O: 0, B-PER: 1, I-PER: 2, B-ORG: 3, I-ORG: 4, B-LOC: 5, I-LOC: 6, B-MISC: 7, I-MISC: 8}

数据拆分

name train validation test
conll2003 14041 3250 3453

数据集创建

策划理由

更多信息需要

源数据

初始数据收集和规范化

更多信息需要

源语言生产者是谁?

更多信息需要

注释

注释过程

更多信息需要

注释者是谁?

更多信息需要

个人和敏感信息

更多信息需要

使用数据的注意事项

数据集的社会影响

更多信息需要

偏见的讨论

更多信息需要

其他已知限制

更多信息需要

附加信息

数据集策展人

更多信息需要

许可信息

CoNLL2003共享任务页面:

英语数据是来自路透社语料库的新闻电报文章的集合。注释由安特卫普大学的人员完成。由于版权原因,我们只提供注释。为了构建完整的数据集,您需要访问路透社语料库。它可以免费用于研究目的,从NIST获取。

版权声明如下,来自路透社语料库页面

路透社语料库中的故事受路透社有限公司和/或汤森路透的版权保护,其使用受以下协议的约束:

组织协议

此协议必须由您组织中负责数据的人员签署,并发送给NIST。

个人协议

此协议必须由您组织中使用路透社语料库的所有研究人员签署,并保存在您组织中。

引用信息

@inproceedings{tjong-kim-sang-de-meulder-2003-introduction, title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition", author = "Tjong Kim Sang, Erik F. and De Meulder, Fien", booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003", year = "2003", url = "https://www.aclweb.org/anthology/W03-0419", pages = "142--147", }

贡献

感谢@jplu

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作