CleanCoNLL
收藏数据集概述
数据集名称: CleanCoNLL
数据集描述: CleanCoNLL是对经典的CoNLL-03数据集进行半自动纠正注释错误后得到的,用于命名实体识别(NER)的数据集。该数据集通过混合(自动和手动)重新标注方法,利用AIDA CoNLL Yago数据集中的Wikipedia链接为每个提及分配NER标签,并进行了多轮交叉检查以纠正剩余错误和解决不一致性。
数据集更新: 对原始CoNLL-03数据集中的7%标签进行了更新。
标签类型: 保留了原始的4种标签类型(PER, LOC, ORG, MISC),并添加了NEL(命名实体链接)注释,即Wikipedia链接。
数据集格式: 数据集以列格式分发,包含5列:Token, POS, Wikipedia, NER (CleanCoNLL*), NER (CleanCoNLL)。其中,CleanCoNLL*表示CleanCoNLL版本在第三阶段之前,即在将形容词附属关系恢复为MISC之前。
数据集获取: 数据集包括掩码注释文件和补丁文件,用户可以通过运行提供的脚本create_cleanconll_from_conll03.sh来重新创建CleanCoNLL。
数据集文件结构
- /data/cleanconll_annotations:包含掩码注释文件。
- /data/patch_files:包含补丁文件,用于更新原始CoNLL-03文本。
- /data/cleanconll:通过脚本生成的包含文本和注释的CleanCoNLL文件。
引用信息
-
EMNLP 2023 Proceedings:
@inproceedings{rucker-akbik-2023-cleanconll, title = "{C}lean{C}o{NLL}: A Nearly Noise-Free Named Entity Recognition Dataset", author = {R{"u}cker, Susanna and Akbik, Alan}, booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing", publisher = "Association for Computational Linguistics", doi = "10.18653/v1/2023.emnlp-main.533", pages = "8628--8645", }
-
arXiv:
@misc{rücker2023cleanconll, title={{C}lean{C}o{NLL}: A Nearly Noise-Free Named Entity Recognition Dataset}, author={Susanna R{"u}cker and Alan Akbik}, year={2023}, eprint={2310.16225}, archivePrefix={arXiv}, primaryClass={cs.CL} }




