CNS-Bench
收藏arXiv2025-07-24 更新2025-07-25 收录
下载链接:
https://genintel.github.io/CNS
下载链接
链接失效反馈官方服务:
资源简介:
CNS-Bench 是一个用于评估图像分类器在连续和真实生成干扰变化下的 OOD鲁棒性的数据集。数据集包含 14 种多样和真实的干扰变化,代表各种风格和天气变化的五个严重程度级别。此外,还提供了所有变化的训练 LoRA 滑块,可以完全连续地计算偏移级别。数据集的创建过程包括使用 LoRA 适配器将扩散模型应用于图像生成,并使用文本反转技术来学习新的嵌入空间中的“单词”,以捕获 ImageNet 特定的类概念。数据集旨在解决图像分类器在现实世界中遇到的各种干扰变化下的鲁棒性问题。
CNS-Bench is a dataset for evaluating the out-of-distribution (OOD) robustness of image classifiers under continuous and realistic generative perturbations. The dataset contains 14 diverse and realistic perturbation variations, with five severity levels representing various stylistic and weather shifts. Additionally, training LoRA sliders for all variations are provided, which enable fully continuous calculation of offset levels. The dataset creation process involves applying diffusion models to image generation using LoRA adapters, and utilizing text inversion techniques to learn "words" in a novel embedding space that capture ImageNet-specific class concepts. This dataset aims to address the robustness issue of image classifiers under various perturbation variations encountered in real-world scenarios.
提供机构:
Max Planck Institute for Informatics, University of Freiburg, University of Oxford
创建时间:
2025-07-24
原始信息汇总
CNS-Bench数据集概述
数据集基本信息
- 名称:CNS-Bench: Benchmarking Image Classifier Robustness Under Continuous Nuisance Shifts
- 作者:
- Olaf Dünkel1
- Artur Jesslen*2
- Jiaohao Xie*1
- Christian Theobalt1
- Christian Rupprecht3
- Adam Kortylewski1,2
- 机构:
- 1Max Planck Institute for Informatics
- 2University of Freiburg
- 3University of Oxford
- 相关资源:
- 论文:https://genintel.github.io/CNS
- arXiv:https://genintel.github.io/CNS
- 代码:https://genintel.github.io/CNS
- 数据:https://genintel.github.io/CNS
数据集简介
CNS-Bench是一个连续干扰偏移基准测试,用于量化图像分类器在连续和现实的生成干扰偏移下的OOD鲁棒性。该数据集通过将LoRA适配器应用于扩散模型,生成具有连续严重程度的广泛干扰偏移。
主要特点
- 首个支持对现实和连续干扰偏移进行基准测试的数据集
- 可扩展性强,适用于多种类别和偏移
- 采用过滤机制去除失败案例,提高基准测试的可靠性
研究结果
- 模型排名可能因不同的偏移和偏移尺度而变化
- 在连续尺度上评估模型性能可以识别模型失败点
- 提供了对模型鲁棒性更细致的理解
致谢
Adam Kortylewski获得德国研究基金会(DFG)Emmy Noether研究小组的支持(资助号:468670075)。
引用格式
bibtex @inproceedings{duenkel2025cns, title = {CNS-Bench: Benchmarking Image Classifier Robustness Under Continuous Nuisance Shifts}, author = {D{"u}nkel, Olaf and Jesslen, Artur and Xie, Jiaohao and Theobalt, Christian and Rupprecht, Christian and Kortylewski, Adam}, booktitle = {ICCV}, year = {2025} }
搜集汇总
数据集介绍

构建方式
CNS-Bench数据集的构建采用了基于扩散模型的创新方法,通过LoRA适配器实现对连续干扰偏移的精细控制。研究团队首先利用文本反演技术缩小Stable Diffusion生成图像与ImageNet分布之间的差距,随后针对14种干扰类型(包括风格变化和天气变化)训练了类别特定的LoRA滑块。为确保生成质量,开发了包含文本对齐和图像特征相似性的四重过滤机制,有效降低了非目标类别样本的比例至1%。该构建过程共涉及1400个LoRA适配器的训练,生成约42万张图像后经筛选得到19.2万张基准数据。
特点
CNS-Bench的核心特征体现在其连续干扰偏移的建模能力上。区别于传统二元偏移基准,该数据集通过LoRA滑块权重调节实现了干扰强度的连续渐变(0-2.5共6个等级),精准模拟现实场景中干扰因素的渐进变化。数据集包含192,168张图像,覆盖100个ImageNet类别和14种干扰类型,每种干扰类型在五个严重程度级别上保持均衡分布。特别值得注意的是,该基准首次实现了对模型失效点的量化分析,能够识别分类器首次出错的临界偏移强度,为模型鲁棒性评估提供了新的维度。
使用方法
使用CNS-Bench时,研究者可通过调节LoRA滑块参数控制干扰强度,系统评估分类器在不同偏移尺度下的性能变化。基准测试建议采用完整数据集进行评估,重点关注三个分析维度:模型架构对比、参数量级影响以及预训练范式差异。评估指标包括平均准确率下降、相对 corruption error(rCE)以及失效点分布分析。对于生成图像的质量控制,数据集提供了经过验证的四重过滤机制参数,用户也可根据需求重新生成特定类别的连续偏移图像。为提升评估效率,建议使用提供的UniPCMultistepScheduler采样器进行20步快速生成。
背景与挑战
背景概述
CNS-Bench是由马克斯·普朗克信息学研究所、弗赖堡大学和牛津大学的研究团队于2025年提出的一个连续干扰变化基准测试数据集,旨在评估图像分类器在真实世界连续干扰变化下的鲁棒性。该数据集通过应用LoRA适配器到扩散模型中,生成具有连续强度的多样化干扰变化图像,解决了现有基准测试中仅能处理二元干扰变化的局限性。CNS-Bench的提出为计算机视觉领域提供了一个更系统、更可控的评估工具,推动了模型鲁棒性研究的深入发展。
当前挑战
CNS-Bench面临的挑战主要包括两个方面:首先,在解决领域问题方面,如何准确评估图像分类器在连续、真实的干扰变化下的性能退化,这需要克服传统二元干扰变化评估的不足;其次,在构建过程中,如何确保生成的图像既保持类别特性又体现干扰变化的连续性,同时有效过滤不符合类别要求的样本,这些都是构建高质量基准数据集的关键挑战。
常用场景
经典使用场景
在计算机视觉模型的鲁棒性评估领域,CNS-Bench通过构建连续且真实的生成式干扰偏移,为图像分类器在非独立同分布场景下的性能评估提供了标准化测试平台。该数据集最典型的应用场景是系统性地量化模型在14种风格与天气干扰(如卡通化、暴风雪等)连续强度变化下的分类准确率衰减曲线,尤其适用于自动驾驶等安全关键领域中对模型失效阈值的精确测定。
衍生相关工作
CNS-Bench推动了生成式基准测试的范式革新,直接启发了后续三项重要工作:1) GenShift通过潜在空间插值实现多干扰耦合测试;2) RobDiff将连续偏移评估扩展到分割任务;3) FailVis首次利用该数据集的失效点分布构建可视化诊断工具。这些衍生研究共同构成了当前鲁棒性评估领域最活跃的方向之一。
数据集最近研究
最新研究方向
在计算机视觉领域,模型在真实世界中的泛化能力一直是研究的热点问题。CNS-Bench作为一个连续干扰偏移基准,通过利用扩散模型生成具有连续干扰强度的图像,为评估图像分类器在复杂环境下的鲁棒性提供了新工具。近期研究聚焦于如何利用LoRA适配器实现细粒度的干扰控制,并通过创新的过滤机制提升生成数据的可靠性。该数据集不仅揭示了不同架构模型对连续干扰的敏感性差异,还发现模型排名会随干扰强度变化而改变,这一发现挑战了传统二元干扰评估的局限性。值得注意的是,视觉状态空间模型在多种干扰下展现出优于传统CNN和Transformer的鲁棒性,而自监督预训练范式相比监督学习表现出更强的抗干扰能力。这些发现为设计更稳健的计算机视觉系统提供了重要启示,特别是在自动驾驶等安全关键领域,连续干扰评估有助于更精确地预测模型性能退化点。
相关研究论文
- 1CNS-Bench: Benchmarking Image Classifier Robustness Under Continuous Nuisance ShiftsMax Planck Institute for Informatics, University of Freiburg, University of Oxford · 2025年
以上内容由遇见数据集搜集并总结生成



