SUB: Substitutions on Caltech-UCSD Birds-200-2011
收藏arXiv2025-08-01 更新2025-08-02 收录
下载链接:
http://huggingface.co/datasets/Jessica-bader/SUB
下载链接
链接失效反馈官方服务:
资源简介:
SUB数据集是基于CUB数据集创建的,包含38,400张合成图像,旨在评估解释性模型的泛化能力。数据集中的图像经过精心编辑,以替换特定属性,如翼色或腹部图案。通过TDG方法,该数据集可以精确控制生成的图像,确保生成的图像同时具有正确的鸟类别和正确的属性。SUB数据集是第一个在评估分类之前隔离概念的光照真实图像数据集,有助于评估模型对已知概念的组合的泛化能力。
The SUB dataset is developed based on the CUB dataset, which consists of 38,400 synthetic images and aims to evaluate the generalization capability of interpretability models. The images in the dataset are carefully edited to replace specific attributes such as wing color or abdominal patterns. Leveraging the TDG method, this dataset enables precise control over the generated images, ensuring that the resulting images possess both the correct bird category and the accurate attributes. The SUB dataset is the first photorealistic image dataset that isolates concepts prior to classification evaluation, facilitating the assessment of model generalization to combinations of known concepts.
提供机构:
慕尼黑工业大学, Helmholtz慕尼黑, 慕尼黑机器学习中心 (MCML)
创建时间:
2025-08-01
原始信息汇总
SUB数据集概述
基本信息
- 语言: 英语 (en)
- 数据集名称: SUB
- 数据集大小: 10K<n<100K
- 下载大小: 12,115,210,530 字节
- 数据集大小: 11,408,353,612 字节
- 测试集样本数: 38,400
数据集描述
SUB(Substitutions on Caltech-UCSD Birds-200-2011)是一个用于测试基于概念的可解释模型在已知概念新组合上泛化能力的基准数据集。数据集包含38,400张图像,每张图像将一个基础鸟类类别与单个目标属性修改相结合(例如,带有“白色胸部”的“红雀”)。总共包含768种独特的鸟类-属性组合,每种组合有50张图像。所有图像均使用FLUX生成,鸟类和属性标签是CUB数据集的子集。
数据特征
- image: 图像数据
- attr_label: 属性标签,包含33个类别(如has_back_color--grey, has_belly_pattern--striped等)
- bird_label: 鸟类标签,包含33个类别(如American_Goldfinch, Anna_Hummingbird等)
数据分割
- test:
- 字节数: 11,408,353,612
- 样本数: 38,400
引用信息
bibtex @article{bader2025sub, title={SUB: Benchmarking CBM Generalization via Synthetic Attribute Substitutions}, author={Jessica Bader and Leander Girrbach and Stephan Alaniz and Zeynep Akata}, journal={Proceedings of the IEEE/CVF International Conference on Computer Vision}, year={2025} }
参考文献
- Black Forest Labs. FLUX. 2024. https://github.com/black-forest-labs/flux
- Wah, S. Branson, P. Welinder, P. Perona, and S. Belongie. The caltech-ucsd birds-200-2011 dataset. In California Institute of Technology Technical Report, 2011
搜集汇总
数据集介绍

构建方式
SUB数据集的构建基于Caltech-UCSD Birds-200-2011(CUB)数据集,通过创新的Tied Diffusion Guidance(TDG)方法生成38,400张合成图像。该方法通过并行去噪过程精确控制图像生成,确保在保持鸟类类别不变的同时替换特定属性(如翅膀颜色或腹部花纹)。数据生成后,经过严格的视觉问答(VQA)模型筛选和人工验证,确保每张图像准确反映目标属性和参考鸟类类别。
特点
SUB数据集包含33种鸟类类别和45种属性,共计768种独特的鸟类-属性组合,每种组合生成50张图像。其核心特点在于通过合成图像精确控制单一属性的变化,从而隔离个体特征对模型预测的影响。与原始CUB数据集相比,SUB具有更高的标注一致性(人类验证准确率达98.9%),且通过TDG技术实现了自然逼真的属性替换,为可解释模型评估提供了接近真实场景的测试环境。
使用方法
SUB专为评估概念瓶颈模型(CBMs)和视觉语言模型(VLMs)的属性预测能力而设计。使用时需加载数据集图像及对应的属性标签,通过模型对替换属性(S+)和原属性(S−)的预测准确率衡量其概念泛化能力。建议结合人类基线(S+准确率94%)对比分析,并注意区分颜色、形状和纹理三类属性的测试难度差异。数据集支持直接用于微调或零样本评估,代码与数据详见Hugging Face仓库。
背景与挑战
背景概述
SUB(Substitutions on Caltech-UCSD Birds-200-2011)是由慕尼黑工业大学和Helmholtz Munich的研究团队于2025年提出的一个细粒度图像和概念基准数据集。该数据集基于经典的CUB-200-2011鸟类数据集,通过创新的Tied Diffusion Guidance(TDG)方法生成了38,400张合成图像,旨在评估概念瓶颈模型(CBMs)等可解释模型在概念组合泛化上的鲁棒性。SUB的创建源于对现有CBMs在分布偏移下概念识别可靠性的质疑,特别是在医学等关键领域需要高度透明推理的场景中。该数据集通过精确控制鸟类属性(如翅膀颜色、腹部图案)的替换,为可解释AI提供了首个面向真实场景的、隔离概念影响的评估环境,推动了可信AI在细粒度视觉任务中的发展。
当前挑战
SUB数据集主要解决两大核心挑战:在领域问题层面,传统CBMs面临概念预测与图像实际内容脱节的问题,模型倾向于记忆类别的概念向量而非真正识别视觉特征,导致在属性组合泛化(如‘蓝松鸦+黄色冠羽’)时失效;在构建过程中,研究团队需克服生成模型对零样本组合的固有缺陷——传统文本引导扩散模型难以精确控制单一属性的替换(如仅修改喙形而保持其他特征不变)。为此提出的TDG方法通过双通道去噪绑定技术,实现了对目标属性的高保真替换,同时通过多级过滤(VQA自动评估+人工验证)确保生成图像在保留参考鸟类身份的前提下准确呈现目标属性,最终构建了标注一致性达98.9%的高质量数据集。
常用场景
经典使用场景
SUB数据集作为概念瓶颈模型(CBM)和视觉语言模型(VLM)的评估基准,主要用于测试模型在细粒度属性替换任务中的泛化能力。通过生成具有特定属性替换(如翅膀颜色或腹部图案)的合成图像,SUB为研究者提供了一个可控的环境,以验证模型是否真正理解并利用了中间概念进行预测。该数据集在解释性人工智能领域尤为重要,特别是在需要模型提供透明决策依据的应用场景中。
解决学术问题
SUB数据集解决了概念瓶颈模型在分布偏移下概念识别不可靠的关键问题。通过引入合成属性替换,SUB揭示了现有CBM和VLM在遇到未见概念组合时的性能局限,表明这些模型往往依赖于类别记忆而非实际图像特征。这一发现挑战了传统概念模型的解释性假设,推动了更鲁棒的中间概念学习方法的开发,为构建真正基于概念的透明AI系统提供了实证基础。
衍生相关工作
SUB的发布催生了一系列关于概念模型鲁棒性的研究。基于其发现的CBM缺陷,后续工作如《GlanceNets》提出了防泄漏的概念架构,《Coarse-to-Fine CBM》开发了分层概念验证机制。同时,TDG生成技术启发了《FreeControl》等通用图像编辑框架,将属性绑定策略扩展到文本到图像生成的更广泛领域。这些衍生研究共同推动了可解释AI从理论到实践的转化。
以上内容由遇见数据集搜集并总结生成



