bassie96code/Label_lijsten
收藏数据集卡片 for "conll2003"
数据集描述
数据集概述
CoNLL-2003共享任务涉及语言无关的命名实体识别。我们将关注四种类型的命名实体:人、地点、组织和不属于前三种类别的杂项实体名称。
CoNLL-2003共享任务数据文件包含四列,由单个空格分隔。每个单词放在单独的行上,每个句子后有一个空行。每行的第一项是一个单词,第二项是词性(POS)标签,第三项是句法块标签,第四项是命名实体标签。块标签和命名实体标签的格式为I-TYPE,表示该单词在类型为TYPE的短语内部。只有当两个相同类型的短语紧接在一起时,第二个短语的第一个单词将具有标签B-TYPE,表示它开始一个新的短语。具有标签O的单词不属于任何短语。请注意,该数据集使用IOB2标记方案,而原始数据集使用IOB1。
支持的任务和排行榜
语言
数据集结构
数据实例
conll2003
- 下载的数据集文件大小: 4.85 MB
- 生成的数据集大小: 10.26 MB
- 磁盘总使用量: 15.11 MB
train的一个示例如下:
json { "chunk_tags": [11, 12, 12, 21, 13, 11, 11, 21, 13, 11, 12, 13, 11, 21, 22, 11, 12, 17, 11, 21, 17, 11, 12, 12, 21, 22, 22, 13, 11, 0], "id": "0", "ner_tags": [0, 3, 4, 0, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], "pos_tags": [12, 22, 22, 38, 15, 22, 28, 38, 15, 16, 21, 35, 24, 35, 37, 16, 21, 15, 24, 41, 15, 16, 21, 21, 20, 37, 40, 35, 21, 7], "tokens": ["The", "European", "Commission", "said", "on", "Thursday", "it", "disagreed", "with", "German", "advice", "to", "consumers", "to", "shun", "British", "lamb", "until", "scientists", "determine", "whether", "mad", "cow", "disease", "can", "be", "transmitted", "to", "sheep", "."] }
原始数据文件使用-DOCSTART-行来分隔文档,但这些行在此处被移除。实际上,-DOCSTART-是一个特殊行,作为两个不同文档之间的边界,在此实现中被过滤掉。
数据字段
所有拆分的数据字段相同。
conll2003
id:一个string特征。tokens:一个list的string特征。pos_tags:一个list的分类标签(int)。完整的标签集及其索引:
python {": 0, "": 1, #: 2, $: 3, (: 4, ): 5, ,: 6, .: 7, :: 8, ``: 9, CC: 10, CD: 11, DT: 12, EX: 13, FW: 14, IN: 15, JJ: 16, JJR: 17, JJS: 18, LS: 19, MD: 20, NN: 21, NNP: 22, NNPS: 23, NNS: 24, NN|SYM: 25, PDT: 26, POS: 27, PRP: 28, PRP$: 29, RB: 30, RBR: 31, RBS: 32, RP: 33, SYM: 34, TO: 35, UH: 36, VB: 37, VBD: 38, VBG: 39, VBN: 40, VBP: 41, VBZ: 42, WDT: 43, WP: 44, WP$: 45, WRB: 46}
chunk_tags:一个list的分类标签(int)。完整的标签集及其索引:
python {O: 0, B-ADJP: 1, I-ADJP: 2, B-ADVP: 3, I-ADVP: 4, B-CONJP: 5, I-CONJP: 6, B-INTJ: 7, I-INTJ: 8, B-LST: 9, I-LST: 10, B-NP: 11, I-NP: 12, B-PP: 13, I-PP: 14, B-PRT: 15, I-PRT: 16, B-SBAR: 17, I-SBAR: 18, B-UCP: 19, I-UCP: 20, B-VP: 21, I-VP: 22}
ner_tags:一个list的分类标签(int)。完整的标签集及其索引:
python {O: 0, B-PER: 1, I-PER: 2, B-ORG: 3, I-ORG: 4, B-LOC: 5, I-LOC: 6, B-MISC: 7, I-MISC: 8}
数据拆分
| name | train | validation | test |
|---|---|---|---|
| conll2003 | 14041 | 3250 | 3453 |
数据集创建
策划理由
源数据
初始数据收集和规范化
源语言生产者是谁?
注释
注释过程
注释者是谁?
个人和敏感信息
使用数据的注意事项
数据集的社会影响
偏见的讨论
其他已知限制
附加信息
数据集策展人
许可信息
从CoNLL2003共享任务页面:
英语数据是来自路透社语料库的新闻电报文章的集合。注释由安特卫普大学的人员完成。由于版权原因,我们只提供注释。为了构建完整的数据集,您需要访问路透社语料库。它可以免费用于研究目的,从NIST获取。
版权声明如下,来自路透社语料库页面:
路透社语料库中的故事受路透社有限公司和/或汤森路透的版权保护,其使用受以下协议的约束:
此协议必须由您组织中负责数据的人员签署,并发送给NIST。
此协议必须由您组织中使用路透社语料库的所有研究人员签署,并保存在您组织中。
引用信息
@inproceedings{tjong-kim-sang-de-meulder-2003-introduction, title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition", author = "Tjong Kim Sang, Erik F. and De Meulder, Fien", booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003", year = "2003", url = "https://www.aclweb.org/anthology/W03-0419", pages = "142--147", }
贡献
感谢@jplu



