CLEANANERCorp
收藏arXiv2024-08-22 更新2024-08-24 收录
下载链接:
https://github.com/iwan-rg/CLEANANERCorp
下载链接
链接失效反馈官方服务:
资源简介:
CLEANANERCorp数据集是由沙特国王大学的研究人员创建,旨在提供一个更准确和一致的阿拉伯语命名实体识别(NER)基准。该数据集包含316篇手动标注的新闻文章,共计150,286个Tokens,主要用于解决NER任务中的标签错误和不一致问题。创建过程中,研究人员通过重新标注和修正错误,提高了数据集的质量和一致性,使其成为评估和训练NER模型的可靠资源。
The CLEANERCorp Dataset was created by researchers at King Saud University in Saudi Arabia, aiming to provide a more accurate and consistent benchmark for Arabic Named Entity Recognition (NER). This dataset includes 316 manually annotated news articles, totaling 150,286 Tokens, and is primarily designed to resolve label errors and inconsistencies in NER tasks. During its development, researchers improved the dataset's quality and consistency through re-annotation and error correction, making it a reliable resource for evaluating and training NER models.
提供机构:
沙特国王大学
创建时间:
2024-08-22
原始信息汇总
CLEANANERCorp: 识别和修正ANERcorp数据集中的错误标签
摘要
标签错误是机器学习数据集中的常见问题,尤其是在命名实体识别等任务中。这些标签错误可能会损害模型训练,影响评估结果,并导致对模型性能的不准确评估。在本研究中,我们深入研究了一个广泛采用的阿拉伯语NER基准数据集(ANERcorp),并发现了大量的注释错误、缺失标签和不一致性。因此,在本研究中,我们进行了实证研究以理解这些错误,修正它们,并提出一个更干净版本的数据集,名为CLEANANERCorp。CLEANANERCorp将作为更准确和一致的基准服务于研究社区。
引用
@inproceedings{alduwais2024cleananercorp, title={CLEANANERCorp: Identifying and Correcting Incorrect Labels in the ANERcorp Dataset}, author={Mashael AlDuwais, Hend Al-Khalifa and Abdulmalik AlSalman}, booktitle={Proceedings of the 6th Workshop on Open-Source Arabic Corpora and Processing Tools}, year={2024} }
搜集汇总
数据集介绍

构建方式
CLEANANERCorp数据集的构建是通过重新标注ANERcorp数据集中的错误标注和遗漏标注,以及解决标注不一致性问题。具体包括四个阶段:定义标注指南、使用CLEANLAB自动检测标注错误、手动重新标注、最终校对。共修正了约6.4%的标注错误。
使用方法
使用CLEANANERCorp数据集时,可以直接用于训练和评估命名实体识别模型。它可以作为阿拉伯语命名实体识别任务的基准数据集,也可以用于跨语言模型的零样本迁移学习。
背景与挑战
背景概述
CLEANANERCorp数据集是对广泛使用的阿拉伯语命名实体识别基准数据集ANERcorp的清洗和修正版本。ANERcorp数据集最早发布于2007年,包含316篇来自不同报纸的新闻文章,是阿拉伯语命名实体识别领域最知名的数据集之一。CLEANANERCorp数据集的创建旨在解决ANERcorp中存在的标注错误、缺失标签和不一致性等问题,提供了一个更准确、更一致的命名实体识别标注数据集。该数据集的创建时间为2023年,主要研究人员来自沙特阿拉伯的国王大学。CLEANANERCorp数据集对ANERcorp中的6.4%的标签进行了修正,显著提高了标注质量和一致性,对相关领域的研究具有积极影响。
当前挑战
在构建CLEANANERCorp数据集的过程中,研究人员面临的主要挑战包括:1)如何准确地识别和纠正ANERcorp中的标注错误;2)如何处理标签缺失和不一致的情况;3)如何确保新标注的数据集具有更高的准确性和一致性。具体来说,挑战包括:A. 标签不一致性,某些词汇在不同句子中被标注为不同的实体;B. 错误的标签,某些词汇被错误地标注为某个实体;C. MISC标签的模糊性,MISC标签的使用不够明确;D. 句首标注的不明确性,句首词汇的标注不清;E. 排版错误,数据集中的排版问题也会影响标注质量。
常用场景
经典使用场景
CLEANANERCorp数据集的经典使用场景在于,作为一种经过纠错和清洗的阿拉伯语命名实体识别(NER)数据集,它为研究人员提供了一个更准确、更一致的基准,以评估和比较不同NER模型的性能。研究人员可以在此基础上训练和测试各种NER模型,验证模型的鲁棒性和准确性。
解决学术问题
CLEANANERCorp解决了原始ANERcorp数据集中存在的标签错误、缺失标签和不一致性等问题,这些问题会影响模型训练、模型评估结果,以及导致对模型性能的不准确评估。通过清洗和纠正这些错误,CLEANANERCorp提高了数据集的质量,使得学术研究在命名实体识别任务上能够获得更可靠的结果。
实际应用
在实际应用中,CLEANANERCorp可以被用于训练阿拉伯语NER系统,用于识别文本中的命名实体,如人名、地点名、组织名等。它可以应用于信息抽取、文本分类、机器翻译等自然语言处理任务,提高这些任务的准确性和鲁棒性。
数据集最近研究
最新研究方向
该研究针对广泛使用的阿拉伯语命名实体识别基准数据集ANERcorp进行了深入分析,发现并纠正了6.4%的标注错误,提出了一个更干净、更一致的数据集版本CLEANANERCorp。该数据集的清洗和修正有助于提高模型训练的质量和评估结果的准确性,对于阿拉伯语命名实体识别任务的研究具有重要意义。
相关研究论文
- 1CLEANANERCorp: Identifying and Correcting Incorrect Labels in the ANERcorp Dataset沙特国王大学 · 2024年
以上内容由遇见数据集搜集并总结生成



