CMNIST-DD, CCFAR10-DD

Name: CMNIST-DD, CCFAR10-DD
Creator: 浙江工业大学
Published: 2024-03-24 14:10:22
License: 暂无描述

arXiv2024-03-24 更新2024-06-21 收录

下载链接：

https://github.com/yaolu-zjut/Biased-DD

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了两个偏置数据集CMNIST-DD和CCIFAR10-DD，由浙江工业大学和浙江大学合作完成。每个数据集包含6个不同偏置比例（0%至100%）的训练集和一个无偏测试集，旨在为偏置数据集蒸馏的研究提供基础。这些数据集通过引入不同程度的偏置属性，模拟了实际数据集中可能存在的偏置问题。研究这些数据集的应用领域主要集中在解决数据集偏置对机器学习模型训练的影响，特别是在数据集蒸馏技术中，如何识别和减轻偏置的影响，以提高模型的泛化能力和准确性。

This study constructs two biased datasets, CMNIST-DD and CCIFAR10-DD, which were collaboratively developed by Zhejiang University of Technology and Zhejiang University. Each dataset includes training sets with six distinct bias ratios ranging from 0% to 100%, alongside an unbiased test set, aiming to provide a foundational benchmark for research on biased dataset distillation. These datasets simulate the potential bias issues present in real-world datasets by introducing bias attributes with varying degrees. The primary application scenarios of these datasets revolve around addressing the impact of dataset bias on the training of machine learning models, specifically in the context of dataset distillation techniques, where researchers aim to identify and alleviate the effects of bias to improve the generalization capability and accuracy of models.

提供机构：

浙江工业大学

创建时间：

2024-03-24

搜集汇总

数据集介绍

构建方式

在数据集蒸馏领域，为系统探究数据集偏差对蒸馏效果的影响，CMNIST-DD与CCIFAR10-DD的构建遵循了Nam等人提出的方法框架。CMNIST-DD基于MNIST数据集，通过为每个数字类别注入带有随机扰动的特定颜色至前景，生成偏差对齐样本；CCIFAR10-DD则利用CIFAR10数据集，针对十个类别分别施加不同类型的图像腐蚀（如“雪”对应“飞机”、“霜”对应“汽车”等）以引入偏差。两个数据集均精心配置了六种不同的偏差比例训练集（0%、10%、50%、80%、95%、100%）及一个无偏差测试集，并通过扰动强度参数调控偏差的显著程度，从而构建出多层次、可调控的偏差数据集体系，为后续分析奠定坚实基础。

特点

CMNIST-DD与CCIFAR10-DD的核心特征在于其系统化的偏差结构设计。每个数据集均包含一系列具有连续变化偏差比例的训练子集，使得研究者能够细致考察从无偏差到完全偏差的完整光谱下数据集蒸馏的表现。偏差属性与标签间存在高度相关性，例如CMNIST-DD中数字与颜色的强关联，或CCIFAR10-DD中物体类别与特定背景腐蚀的耦合，这种设计模拟了现实数据中常见的隐蔽偏差问题。此外，数据集通过扰动强度参数实现了偏差视觉显著度的可调节性，提供了从轻微到严重不同程度的偏差表现形式，从而支持对偏差影响机制的深入剖析。

使用方法

该数据集主要用于评估数据集蒸馏方法在存在偏差的数据环境下的鲁棒性与有效性。研究者可选取如梯度匹配、分布匹配等代表性蒸馏方法，在CMNIST-DD或CCIFAR10-DD的不同偏差比例子集上进行合成数据生成。实验时，需在无偏差测试集上评估合成数据训练所得模型的性能，并与在原完整偏差数据集上训练的模型表现进行对比分析。通过系统比较不同偏差比例、不同扰动强度下合成数据的性能变化，能够揭示数据集偏差对蒸馏过程的量化影响，进而为设计针对偏差场景的改进蒸馏算法提供实证依据与理论启示。

背景与挑战

背景概述

在深度学习领域，数据集蒸馏技术旨在通过合成小型数据集来保留原始大规模数据集中的关键信息，从而显著减轻模型训练的计算负担。CMNIST-DD与CCIFAR10-DD数据集由浙江工业大学、浙江大学和杜克大学的研究团队于2024年共同构建，其核心研究问题聚焦于探索数据集偏差对数据集蒸馏性能的影响。这一开创性工作首次系统性地揭示了原始数据集中存在的偏差属性（如颜色关联或背景干扰）如何干扰蒸馏过程，进而影响合成数据集的质量与模型泛化能力，为偏差感知的数据集蒸馏方法奠定了实证基础，推动了数据高效学习领域的前沿发展。

当前挑战

CMNIST-DD与CCIFAR10-DD所针对的领域挑战在于，传统数据集蒸馏方法通常假设原始数据集无偏差，而现实中的数据常包含隐蔽的偏差关联（例如数字与特定颜色的强相关性），导致模型过度依赖偏差属性而非本质特征，从而损害合成数据集的代表性与鲁棒性。在构建过程中，研究团队面临双重挑战：一是需要精确设计具有可控偏差比例（如0%至100%）和扰动强度（如严重度1-4）的数据变体，以系统量化偏差影响；二是需确保合成数据集在保留无偏差属性的同时，有效剥离偏差属性的干扰，这对蒸馏算法的设计提出了更高的理论要求与实现复杂度。

常用场景

经典使用场景

在数据集蒸馏领域，CMNIST-DD和CCIFAR10-DD作为带有可控偏置的人工构造数据集，其经典使用场景在于系统评估偏置对蒸馏过程的影响。这些数据集通过引入颜色扰动或图像腐蚀等偏置属性，模拟现实数据中常见的非目标特征与标签间的虚假关联，为研究者提供了量化分析偏置影响的基准平台。在实验中，它们被用于生成不同偏置比例的合成数据集，进而检验蒸馏方法在保留关键信息与过滤偏置噪声之间的平衡能力，揭示了偏置如何扭曲合成数据的特征分布与多样性。

衍生相关工作

基于CMNIST-DD和CCIFAR10-DD的探索，衍生出一系列针对偏置蒸馏的经典研究工作。论文中提出的“偏置数据集蒸馏”数学框架，为后续研究奠定了理论基础，激励学者设计新的损失函数以分离偏置属性与无偏属性。例如，后续工作可能扩展至更复杂的偏置类型（如社会文化偏置）或结合去偏技术（如对抗学习），推动蒸馏方法在持续学习、联邦学习等场景中应对数据偏置的挑战，促进蒸馏领域向更稳健、更公平的方向演进。

数据集最近研究