Calibration-aware Semantic Mixing (CSM) 数据集

Name: Calibration-aware Semantic Mixing (CSM) 数据集
Creator: 香港城市大学计算机科学系, 悉尼大学计算科学学院
Published: 2025-04-18 16:26:18
License: 暂无描述

arXiv2025-04-18 更新2025-04-22 收录

下载链接：

https://github.com/E-Galois/CSM

下载链接

链接失效反馈

官方服务：

资源简介：

CSM数据集是由香港城市大学和悉尼大学的研究人员创建的，用于模型校准的高保真合成数据集。该数据集通过采用预训练的扩散模型，生成在同一个潜伏噪声条件下但具有不同软类后验的图像样本来确保图像保真度。此外，数据集的样本通过CLIP视觉特征进行重新标注，以提供更精确的类后验。CSM数据集旨在解决模型校准问题，特别是在处理具有不同不确定性的视觉样本时，提高模型的置信度估计准确性。

The CSM dataset is a high-fidelity synthetic dataset developed by researchers from City University of Hong Kong and The University of Sydney for model calibration. It leverages pre-trained diffusion models to generate image samples that share identical latent noise conditions but have different soft class posteriors, thus ensuring image fidelity. Additionally, the samples in this dataset are re-annotated using CLIP visual features to provide more precise class posteriors. The CSM dataset is designed to address model calibration problems, especially when handling visual samples with varying uncertainties, to improve the accuracy of model confidence estimation.

提供机构：

香港城市大学计算机科学系, 悉尼大学计算科学学院

创建时间：

2025-04-18

原始信息汇总

数据集概述

基本信息

数据集名称：PyTorch implementation of "Beyond One-Hot Labels: Semantic Mixing for Model Calibration"
官方实现：是
代码状态：即将发布

依赖环境

Python版本：>= 3.8
PyTorch版本：>= 1.8.1

运行步骤

生成增强样本： sh gen_edm-mix/run_mix.sh
注释： python annotate.py
训练： python train_net.py

致谢

代码主要基于[RankMixup]的代码实现。

引用

未提供具体引用信息。

搜集汇总

数据集介绍

构建方式

CSM数据集通过创新的校准感知语义混合技术构建，采用预训练的扩散模型生成具有混合类别特征的高保真图像样本。研究团队设计了一种双条件采样策略，在扩散反向过程中基于混合标签和共享潜在噪声生成相关样本序列，确保图像布局一致性和语义连贯性。针对生成样本的置信度标注问题，提出了基于CLIP视觉特征的重新标注方案，通过将样本嵌入表示为类别原型的插值来消除类别特异性偏差，从而获得更精确的软标签。

特点

该数据集的核心特征在于其独特的混合语义表示能力与精确的置信度标注体系。不同于传统Mixup方法简单的像素叠加，CSM生成的样本保持了物体的空间完整性，实现从源类别到目标类别的平滑语义过渡。数据集提供连续的置信度标注而非二值标签，每个样本对应多维概率向量，准确反映类别间的不确定性分布。特别值得注意的是，样本集通过共享潜在噪声保持视觉一致性，形成具有渐进语义变化的样本序列，为模型校准提供丰富的置信度学习信号。

使用方法

使用CSM数据集时，建议采用联合损失函数进行模型训练，结合标准交叉熵损失和针对软标签设计的L2损失。L2损失能平衡不同置信度样本的学习过程，避免传统损失函数导致的校准偏差。实践表明，将CSM生成样本与原始数据按1:2比例混合训练效果最佳。对于生成的大规模样本集，可采用分层抽样策略保持类别平衡。在使用预训练模型处理CSM数据时，应注意对CLIP特征空间进行归一化处理以消除类别原型间的尺度差异，确保重新标注的置信度准确反映真实类别后验概率。

背景与挑战

背景概述

Calibration-aware Semantic Mixing (CSM) 数据集由Haoyang Luo、Linwei Tao、Minjing Dong和Chang Xu等研究人员于2025年提出，旨在解决深度学习模型校准问题。该数据集的核心研究问题是传统基于独热标签的数据集无法为模型校准提供足够的不确定性知识，导致模型预测的置信度无法准确反映其预测正确的真实概率。CSM数据集通过扩散模型生成具有混合类别特征的训练样本，并为其标注不同的置信度分数，从而为模型校准提供了丰富的真实不确定性标注。这一创新对计算机视觉领域，特别是安全敏感应用如自动驾驶、医疗诊断等具有重要影响力。

当前挑战

CSM数据集面临的主要挑战包括：1) 领域问题挑战：传统图像分类数据集使用独热标签，无法准确表示样本的不确定性，而真实世界中的视觉样本往往存在模糊性和不确定性；2) 构建过程挑战：由于真实世界中不确定视觉样本的稀缺性，难以直接获取此类真实数据；扩散模型生成的混合样本的标注置信度与混合比例可能存在偏差；需要设计适合软标签数据的新型损失函数以确保平衡的置信度校准。

常用场景

经典使用场景

在深度学习模型的校准研究中，CSM数据集通过生成具有语义混合特征的高保真图像样本及其对应的软标签，为模型提供了丰富的置信度学习信号。该数据集特别适用于评估和改进模型在分类任务中的置信度校准能力，尤其是在处理模糊或混合类别的样本时，能够显著提升模型对预测不确定性的量化准确性。

衍生相关工作

CSM数据集催生了一系列基于语义混合的校准方法创新，如结合CLIP特征的重标注技术和平衡L2损失函数设计。相关研究进一步拓展至长尾分布场景（如CIFAR-LT），验证了其在类别不平衡条件下的通用性。扩散模型与校准目标的协同优化也成为新兴方向，例如后续工作DiffuseMix通过背景语义保留提升了混合样本的多样性。

数据集最近研究