NoisyAG-News
收藏arXiv2024-07-09 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2407.06579v1
下载链接
链接失效反馈官方服务:
资源简介:
NoisyAG-News是由杭州电子科技大学开发的文本分类基准数据集,旨在评估实例依赖噪声学习方法的有效性。该数据集包含50,000条通过非专家人工众包注释的样本,涵盖四个类别。数据集的创建过程包括从AG-News数据集中选择样本,并通过多轮注释和质量控制确保数据质量。NoisyAG-News主要用于解决文本分类中的实例依赖噪声问题,特别是在预训练语言模型和噪声处理技术中的应用。
NoisyAG-News is a text classification benchmark dataset developed by Hangzhou Dianzi University, designed to evaluate the effectiveness of instance-dependent noise learning methods. This dataset contains 50,000 samples annotated by non-expert human crowdworkers, covering four categories. The dataset was constructed by selecting samples from the original AG-News dataset, and ensuring data quality through multiple rounds of annotation and quality control. NoisyAG-News is primarily used to address the instance-dependent noise problem in text classification, especially for applications involving pre-trained language models and noise handling techniques.
提供机构:
杭州电子科技大学
创建时间:
2024-07-09
搜集汇总
数据集介绍

构建方式
为了更好地理解现实世界文本分类场景中的标签噪声,研究者们构建了NoisyAG-News数据集。该数据集通过人工标注的方式,从AG-News数据集中选取了50,000个样本进行标注,每个类别选取12,500个样本。为了获得众包冗余标注,将60名标注者分成三组,每组标注整个数据集,每个样本得到三个标签。通过对标注标签的分析,研究者们发现现实世界的噪声标签遵循实例依赖模式。为了进一步验证这一发现,研究者们使用预训练的语言模型和噪声处理技术,在NoisyAG-News及其对应的合成噪声数据集上进行了综合学习实验。
特点
NoisyAG-News数据集的特点在于,它是第一个包含真实世界噪声的控制文本分类基准数据集。该数据集的噪声标签是由非专家、纯人工众包标注生成的,因此能够更好地模拟现实世界的噪声模式。与之前的NoisyNER和NoisyWikiHow数据集相比,NoisyAG-News更加通用和现实,可以作为评估不同方法在处理实例依赖噪声时的有效性的基准。
使用方法
使用NoisyAG-News数据集时,可以将其与合成噪声数据集进行比较,以评估不同模型和噪声处理方法在处理实例依赖噪声时的性能。此外,通过对不同噪声级别和噪声模式下的模型性能进行比较,可以进一步理解实例依赖噪声对文本分类任务的影响。
背景与挑战
背景概述
NoisyAG-News数据集的研究背景在于解决现实世界中文本分类任务中标签噪声的问题。该数据集由杭州电子科技大学的Hongfei Huang等研究人员于近期构建,旨在提供一个通用的、可控的实例依赖噪声数据集,以促进文本分类中噪声鲁棒学习的进展。与现有的主要关注合成标签噪声的研究不同,NoisyAG-News通过人工标注的方式收集了真实世界的噪声模式,并通过定性和定量的方式展示了真实世界噪声的实例依赖性。该数据集的创建填补了文本分类领域中噪声标签学习的空白,为未来的研究提供了宝贵的资源和基准。
当前挑战
NoisyAG-News数据集面临的挑战主要在于现实世界噪声的模式和合成噪声的差异。虽然预训练模型对合成噪声表现出较强的鲁棒性,但在处理实例依赖噪声时却面临着困难。实例依赖噪声的样本在训练和测试过程中表现出不一致的性能,给现有的噪声处理方法带来了新的挑战。此外,NoisyAG-News数据集的构建过程中也遇到了挑战,如人工标注的质量控制和标注者之间的不一致性等问题。
常用场景
经典使用场景
NoisyAG-News 数据集被广泛用于评估和比较不同学习方法在处理文本分类任务中实例相关噪声的有效性。该数据集为研究噪声文本分类提供了重要的基准,有助于推动噪声学习领域的发展。
衍生相关工作
NoisyAG-News 数据集衍生了许多相关的研究工作,例如基于噪声标签学习的噪声处理方法、噪声标签学习在文本分类任务中的应用等。这些研究工作有助于推动噪声学习领域的发展,并为解决现实世界中的噪声问题提供了新的思路和方法。
数据集最近研究
最新研究方向
随着自然语言处理(NLP)领域的发展,对文本分类模型的鲁棒性要求越来越高。NoisyAG-News数据集的提出,为研究文本分类中的实例依赖性噪声提供了一个新的视角。该数据集通过人工标注的方式,模拟了现实世界中文本分类任务中存在的噪声模式,从而更好地反映了真实世界中的噪声情况。在NoisyAG-News数据集上进行的实验表明,当前预训练模型在处理实例依赖性噪声时面临着新的挑战,而现有的噪声处理方法在应对此类噪声时效果不佳。因此,NoisyAG-News数据集的提出,将推动NLP领域对实例依赖性噪声处理方法的深入研究,并促进更加鲁棒的文本分类模型的开发。
相关研究论文
- 1NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification杭州电子科技大学 · 2024年
以上内容由遇见数据集搜集并总结生成



