CleanCoNLL

github2024-05-17 更新2024-05-31 收录

下载链接：

https://github.com/flairNLP/CleanCoNLL

下载链接

链接失效反馈

官方服务：

资源简介：

我们半自动地纠正了经典CoNLL-03数据集中的标注错误，创建了一个名为CleanCoNLL的几乎无噪声的命名实体识别数据集。

We semi-automatically corrected the annotation errors in the classic CoNLL-03 dataset, creating a nearly noise-free named entity recognition dataset named CleanCoNLL.

创建时间：

2023-01-24

原始信息汇总

数据集概述

数据集名称： CleanCoNLL

数据集描述： CleanCoNLL是对经典的CoNLL-03数据集进行半自动纠正注释错误后得到的，用于命名实体识别（NER）的数据集。该数据集通过混合（自动和手动）重新标注方法，利用AIDA CoNLL Yago数据集中的Wikipedia链接为每个提及分配NER标签，并进行了多轮交叉检查以纠正剩余错误和解决不一致性。

数据集更新： 对原始CoNLL-03数据集中的7%标签进行了更新。

标签类型： 保留了原始的4种标签类型（PER, LOC, ORG, MISC），并添加了NEL（命名实体链接）注释，即Wikipedia链接。

数据集格式： 数据集以列格式分发，包含5列：Token, POS, Wikipedia, NER (CleanCoNLL*), NER (CleanCoNLL)。其中，CleanCoNLL*表示CleanCoNLL版本在第三阶段之前，即在将形容词附属关系恢复为MISC之前。

数据集获取： 数据集包括掩码注释文件和补丁文件，用户可以通过运行提供的脚本create_cleanconll_from_conll03.sh来重新创建CleanCoNLL。

数据集文件结构

/data/cleanconll_annotations：包含掩码注释文件。
/data/patch_files：包含补丁文件，用于更新原始CoNLL-03文本。
/data/cleanconll：通过脚本生成的包含文本和注释的CleanCoNLL文件。

引用信息

EMNLP 2023 Proceedings:

@inproceedings{rucker-akbik-2023-cleanconll, title = "{C}lean{C}o{NLL}: A Nearly Noise-Free Named Entity Recognition Dataset", author = {R{"u}cker, Susanna and Akbik, Alan}, booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing", publisher = "Association for Computational Linguistics", doi = "10.18653/v1/2023.emnlp-main.533", pages = "8628--8645", }
arXiv:

@misc{rücker2023cleanconll, title={{C}lean{C}o{NLL}: A Nearly Noise-Free Named Entity Recognition Dataset}, author={Susanna R{"u}cker and Alan Akbik}, year={2023}, eprint={2310.16225}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

CleanCoNLL数据集的构建基于经典的CoNLL-03数据集，通过半自动化的方式修正了其中的命名实体识别（NER）标注错误。研究团队利用AIDA CoNLL Yago数据集中的Wikipedia链接，采用混合标注方法，结合自动与手动标注，重新分配了NER标签。此外，通过多轮交叉验证，进一步纠正了剩余的错误并解决了标注不一致的问题。最终，数据集对原始CoNLL-03中的7%标签进行了更新，确保了标注的高质量与准确性。

特点

CleanCoNLL数据集的主要特点在于其近乎无噪声的NER标注，相较于原始CoNLL-03，显著提升了标注的准确性。数据集保留了原始的4种实体类型（PER, LOC, ORG, MISC），并额外添加了命名实体链接（NEL）标注，即与Wikipedia的链接，增强了实体的可解释性与关联性。此外，数据集的构建过程中采用了多轮验证与修正，确保了标注的一致性与可靠性。

使用方法

使用CleanCoNLL数据集时，用户需先克隆该数据集的GitHub仓库，并运行提供的脚本`create_cleanconll_from_conll03.sh`。该脚本将自动下载原始CoNLL-03语料库，并应用补丁文件以对齐文本基础，最终生成包含文本与标注的CleanCoNLL文件。生成的数据集文件以列格式呈现，包含5列信息，分别是Token、POS、Wikipedia链接、NER标注（CleanCoNLL*）以及最终的NER标注（CleanCoNLL）。用户可根据需求直接使用这些标注文件进行命名实体识别任务的训练与评估。

背景与挑战

背景概述

CleanCoNLL数据集是在经典CoNLL-03命名实体识别（NER）数据集的基础上，通过半自动方式修正标注错误而生成的一个近乎无噪声的NER数据集。该数据集由Susanna Rücker和Alan Akbik在2023年创建，旨在提升NER任务的标注质量，减少噪声对模型训练的影响。通过结合自动和手动重新标注的方法，研究人员利用AIDA CoNLL Yago数据集中的Wikipedia链接，对CoNLL-03数据集中的实体标签进行了更新和校正，最终更新了7%的原始标签。CleanCoNLL的发布不仅为NER领域的研究提供了更高质量的数据资源，还为相关研究提供了新的基准。

当前挑战

CleanCoNLL数据集的构建过程中面临了多项挑战。首先，如何有效识别并修正CoNLL-03数据集中的标注错误是一个核心问题，这需要结合自动和手动的方法进行多轮交叉验证。其次，确保新标注的一致性和准确性，尤其是在处理复杂的实体关系和歧义时，是一个技术难点。此外，数据集的发布形式和使用方式也需要考虑，如何在保护版权的同时，方便研究者使用和复现数据集，是另一个重要挑战。最后，如何评估CleanCoNLL对NER模型性能的实际提升效果，也是一个需要深入研究的问题。

常用场景

经典使用场景

CleanCoNLL数据集在命名实体识别（NER）领域中具有经典的使用场景，主要用于训练和评估NER模型的性能。由于其近乎无噪声的标注，该数据集为研究人员提供了一个高质量的基准，用于测试和比较不同NER算法的准确性和鲁棒性。通过结合原始CoNLL-03数据集和CleanCoNLL的标注，研究者可以在保持数据一致性的同时，显著提升模型的识别精度。

解决学术问题

CleanCoNLL数据集解决了传统CoNLL-03数据集中存在的标注噪声问题，为学术界提供了一个更为纯净的NER基准。这一改进不仅提升了模型训练的效果，还为研究者提供了一个更为可靠的评估工具，从而推动了NER领域的研究进展。通过减少标注错误，CleanCoNLL有助于更准确地衡量和比较不同NER模型的性能，为该领域的进一步发展奠定了坚实基础。

衍生相关工作

CleanCoNLL数据集的发布催生了一系列相关的经典工作，尤其是在NER模型的改进和评估方面。许多研究者利用CleanCoNLL进行模型训练和测试，提出了新的算法和优化策略，进一步提升了NER系统的性能。此外，CleanCoNLL的标注方法和数据处理流程也为其他领域的数据集构建提供了参考，推动了整个自然语言处理领域的标准化和规范化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集