ciFAIR-100

Name: ciFAIR-100
Creator: 阿德莱德大学澳大利亚机器学习研究所, 萨里大学视觉、语音和信号处理中心, 牛津大学工程科学系, 莫纳什大学数据科学与人工智能系
Published: 2025-01-23 13:19:00
License: 暂无描述

arXiv2025-01-23 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2501.13389v1

下载链接

链接失效反馈

官方服务：

资源简介：

ciFAIR-100数据集是一个用于评估噪声标签学习方法的基准数据集，由阿德莱德大学等机构创建。该数据集包含40%的闭集噪声（ID噪声）和40%的开集噪声（OOD噪声），模拟了现实世界数据集中常见的复杂噪声模式。数据集通过引入实例依赖的噪声模式，旨在更好地反映真实场景中的噪声分布。该数据集的应用领域主要集中在图像分类任务中，旨在解决噪声标签对模型性能的影响问题，推动鲁棒学习算法的发展。

The ciFAIR-100 dataset is a benchmark dataset for evaluating noisy label learning methods, created by institutions including the University of Adelaide and other research organizations. It contains 40% closed-set noise (in-distribution/ID noise) and 40% open-set noise (out-of-distribution/OOD noise), simulating the complex noise patterns commonly seen in real-world datasets. By introducing instance-dependent noise patterns, this dataset is designed to better reflect the noise distribution in real-world scenarios. Its primary application domain is image classification tasks, aiming to address the negative impact of noisy labels on model performance and promote the development of robust learning algorithms.

提供机构：

阿德莱德大学澳大利亚机器学习研究所, 萨里大学视觉、语音和信号处理中心, 牛津大学工程科学系, 莫纳什大学数据科学与人工智能系

创建时间：

2025-01-23

搜集汇总

数据集介绍

构建方式

ciFAIR-100数据集的构建采用了一种双阶段噪声注入策略，旨在模拟现实世界标签噪声的复杂性。首先，为了引入开放集噪声，通过计算ciFAIR-100和Places365数据集之间样本特征表示的余弦相似度，选择性地用Places365中语义相似的图像替换ciFAIR-100训练集中的一定比例样本，从而创建实例依赖的开放集噪声。接着，在剩余的干净样本上注入实例依赖的封闭集噪声，通过从正态分布中采样实例特定的翻转率和类特定向量，并使用这些向量生成新的标签分布，从而模拟封闭集噪声。这种双噪声框架提供了一个严格的测试环境，有效地捕捉了在实例依赖条件下两种噪声类型的共存，从而更真实地反映了现实世界的数据不完整性。

使用方法

使用ciFAIR-100数据集时，研究人员可以将其作为评估噪声标签学习方法性能的基准。数据集的实例依赖噪声特性使得研究者能够更全面地评估方法在处理带有噪声标签的数据时的性能。此外，数据集的双阶段噪声注入策略也为研究者提供了一个更真实的数据环境，有助于提高学习方法的鲁棒性和泛化能力。在具体使用时，研究人员可以根据需要选择合适的学习方法，并在ciFAIR-100数据集上进行训练和评估，从而提高学习方法的性能。

背景与挑战

背景概述

ciFAIR-100数据集的研究背景可以追溯到图像分类中鲁棒训练与噪声标签这一关键挑战。随着深度学习在图像分类任务中的广泛应用，高质量的数据集成为了模型训练的关键。然而，现实世界中的数据集往往包含一定比例的噪声标签，这给模型的训练带来了极大的挑战。ciFAIR-100数据集的创建旨在解决这一问题，该数据集由澳大利亚阿德莱德大学的澳大利亚机器学习研究所、英国萨里大学的视觉、语音和信号处理中心、英国牛津大学的工程科学系以及澳大利亚莫纳什大学的数据科学和人工智能系共同研发。该数据集的核心研究问题是如何在噪声标签的情况下实现鲁棒的图像分类，减少对昂贵的高质量数据集的依赖。ciFAIR-100数据集的创建对图像分类领域产生了深远的影响，为相关研究提供了重要的基准数据集。

当前挑战

ciFAIR-100数据集面临的主要挑战包括：1) 实现鲁棒的图像分类，减少对高质量数据集的依赖；2) 构建过程中，如何有效地估计实例依赖的分布内和分布外噪声标签率；3) 如何同时处理分布内和分布外的噪声标签，提高模型的鲁棒性；4) 如何构建一个能够反映现实世界中噪声分布的基准数据集，为相关研究提供更真实、更全面的测试平台。

常用场景

经典使用场景

ciFAIR-100数据集是用于图像分类任务的一个基准数据集，它模拟了现实世界中存在的实例相关的噪声。这个数据集包含了两种类型的噪声：封闭集噪声和开放集噪声。封闭集噪声是指样本被错误地标记为训练类别中的一个类别，而开放集噪声是指样本被错误地标记为训练类别之外的一个类别。ciFAIR-100数据集通过同时模拟这两种噪声类型，提供了一个更接近现实世界的噪声模式，使得研究者可以在这个数据集上评估他们的模型在处理复杂噪声情况下的鲁棒性。

解决学术问题

ciFAIR-100数据集解决了现实世界中存在的实例相关的噪声问题。现有的方法通常只处理封闭集噪声或开放集噪声，而ciFAIR-100数据集同时模拟了这两种噪声类型，使得研究者可以在这个数据集上评估他们的模型在处理复杂噪声情况下的鲁棒性。此外，ciFAIR-100数据集还提供了一个新的基准，使得研究者可以更全面地评估他们的模型在处理噪声标签学习问题上的性能。

实际应用

ciFAIR-100数据集在实际应用中有着广泛的应用前景。例如，在图像分类任务中，可以使用ciFAIR-100数据集来训练模型，使得模型能够更好地处理现实世界中的噪声数据。此外，ciFAIR-100数据集还可以用于其他计算机视觉任务，例如目标检测、图像分割等，以提高模型在处理噪声数据时的鲁棒性。

数据集最近研究