ZeroShot-T2I-Concepts

Name: ZeroShot-T2I-Concepts
Creator: 米兰理工大学
Published: 2026-05-19 21:46:58
License: 暂无描述

arXiv2026-05-19 更新2026-05-21 收录

下载链接：

https://github.com/DataSciencePolimi/ZeroShot-T2I-Concepts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由米兰理工大学的研究团队构建，旨在评估零样本文本到图像生成模型在概念可解释性任务中合成概念的忠实度。数据集包含41个视觉概念共计3860张图像，涵盖从低阶纹理到高阶物体语义的不同抽象层次，其图像来源包括描述性纹理数据集、ImageNet类别、Flickr材料数据库及公开网络资源。数据集的创建过程通过预定义提示词驱动零样本T2I模型生成合成概念图像，并与真实概念图像进行多维度对比分析。该数据集主要应用于可解释人工智能领域，旨在解决传统概念可解释方法依赖大量人工标注图像的限制，探索合成数据在模型解释任务中的可靠性与语义保真度问题。

This dataset was constructed by the research team at Politecnico di Milano to evaluate the fidelity of synthesized concepts generated by zero-shot text-to-image generation models in concept interpretability tasks. It includes 3,860 images across 41 visual concepts, covering a broad spectrum of abstraction levels from low-level textures to high-level object semantics. The image sources encompass descriptive texture datasets, ImageNet categories, the Flickr Material Database, and public web resources. The dataset was developed by utilizing pre-defined prompts to drive zero-shot T2I models for generating images of synthesized concepts, followed by multi-dimensional comparative analysis against ground-truth concept images. This dataset is primarily applied in the field of Explainable Artificial Intelligence (XAI), aiming to resolve the limitation of traditional concept interpretability methods that rely on large volumes of manually annotated images, and to investigate the reliability and semantic fidelity of synthetic data in model interpretation tasks.

提供机构：

米兰理工大学

创建时间：

2026-05-19

原始信息汇总

📊 合成概念数据集概览

该数据集由米兰理工大学数据科学实验室创建，旨在利用零样本文本到图像（T2I）模型生成合成视觉概念，支持基于概念的**可解释人工智能（XAI）**研究。

🧠 研究动机

基于概念的XAI方法依赖人工标注的概念数据集，规模扩展受限。本数据集探索使用T2I模型合成概念作为一种可扩展的替代方案。

🗂️ 数据集内容

数据集包含：

🏷️ 真实概念图像：从多个数据集和搜索引擎收集。
🎨 合成概念图像：根据预定义文本提示生成。
🔁 每个概念包含多个样本：支持变异性分析。

每个概念对应一种人类可解释的视觉特征，例如：

纹理（如条纹、点状）
物体部件（如翅膀、轮子）
材质或图案

📂 项目结构

仓库根目录为 concepts/，每个概念和T2I模型拥有独立文件夹：

concepts/ ├── analysis.py # 统计辅助脚本 ├── asparagus/ │ ├── asparagus/ # 真实芦笋图像 │ ├── asparagus_flux/ # Flux 1.1生成的芦笋概念 │ ├── asparagus_gpti1/ # GPT-Image 1生成的芦笋概念 │ └── asparagus_sd35/ # Stable Diffusion 3.5生成的芦笋概念 └── ... # 其他概念类似

🔬 应用场景

评估基于概念的XAI方法
研究合成与真实概念间的表示相似性
分析概念内样本间的一致性
支撑下游解释任务
分析概念移除对模型解释的影响

📈 评估协议（来自论文）

概念表示相似性：比较合成与真实概念图像的嵌入。
概念内相似性：测量同一概念不同子集的一致性。
下游解释性能：评估在解释类别预测中的有效性。
概念移除影响：分析移除概念后解释行为的变化。

⚠️ 局限性

合成概念与真实概念间可能存在偏差。
生成模型会引入固有偏见。

🚀 快速开始

bash git clone https://github.com/DataSciencePolimi/ZeroShot-T2I-Concepts.git cd ZeroShot-T2I-Concepts python analysis.py # 运行分析脚本

📄 引用

bibtex @InProceedings{ZeroShot-T2I-Concepts, author = {Astolfi, Giacomo and Bianchi, Matteo and Campi, Riccardo and De Santis, Antonio and Brambilla, Marco}, title = {A Framework for Evaluating Zero-Shot Image Generation in Concept-based Explainability}, booktitle = {2026 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year = {2026} }

搜集汇总

数据集介绍

构建方式

ZeroShot-T2I-Concepts数据集的构建基于零样本文本到图像生成模型，旨在为概念可解释人工智能提供合成概念数据。研究从多个视觉抽象层次选取了41个概念，涵盖低层级纹理（如来自DTD数据集的13个纹理概念）、高层级物体语义（如10个ImageNet类别）以及自然与人工材质（如FMD的10个材质概念），并手动收集了8个来自搜索引擎的概念图像。每个概念与一个相关的ImageNet类别配对，共生成2,100张类别图像。合成概念图像通过预定义的提示模板，利用Flux 1.1、Stable Diffusion 3.5和GPT-Image-1三种T2I模型生成，每个概念生成200张图像。同时，采用GPT-Image-1作为图像到图像模型，通过提示驱动编辑从类别图像中移除概念，生成反事实图像。数据集的构建过程确保了概念类型的多样性，并通过标准化提示模板和生成参数控制合成质量。

特点

该数据集的核心特点在于其系统性评估合成概念对真实概念忠实度的多维框架。首先，通过概念表示对齐分析，计算合成与真实概念激活向量之间的余弦相似度，揭示三者间部分但有限的语义重叠（平均相似度约0.54-0.59）。其次，概念表示内相似性评估显示，合成CAVs在图像子集规模增大时表现出更高的内一致性，暗示零样本T2I模型可能无法充分捕捉真实概念的固有多样性。第三，下游解释任务影响分析表明，合成与真实概念的重要性得分分布存在显著差异（KS检验p<10⁻⁶），尽管平均绝对差异较小（约0.04），但统计检验证实了语义偏离。最后，反事实测试通过概念移除实验发现，合成概念的重要性变化幅度低于真实概念（约0.013-0.016 vs 0.031），且移除前后分类概率下降与重要性变化呈单调正相关（斯皮尔曼ρ=0.656），验证了评估框架的有效性。

使用方法

该数据集的使用方法围绕四个渐进式评估策略展开。用户首先需从提供的41个概念中选择目标概念及其关联类别，并获取对应的合成和真实图像集。通过预训练的CNN模型（如VGG-16、ResNet-50、Inception-V3或ConvNeXt）提取图像在特定层的激活特征，并利用TCAV或Visual-TCAV方法计算概念激活向量。随后，进行概念表示对齐分析，计算合成与真实CAVs的余弦相似度以评估语义一致性。其次，通过内相似性分析，从概念图像中随机抽取等大小子集，重复计算CAVs间的相似度，以比较合成与真实概念的代表性稳定性。第三，在下游解释任务中，将合成CAVs应用于目标类别图像，计算概念归因分数，并与真实CAVs的分数进行差异分析。最后，利用提供的I2I模型移除类别图像中的概念，对比移除前后的重要性变化，以及分类概率的下降。所有分析需结合5次自助法重复以确保统计稳健性，代码和完整测试集已公开在GitHub仓库中。

背景与挑战

背景概述

在可解释人工智能（XAI）领域，基于概念的解释方法通过将深度模型的内部表示映射为人类可理解的视觉特征（如纹理、物体部件），弥合了底层图像数据与高层语义之间的鸿沟。然而，传统方法依赖大规模人工标注的概念图像集，限制了其可扩展性与应用范围。为突破这一瓶颈，由意大利米兰理工大学（Politecnico di Milano）Giacomo Astolfi、Matteo Bianchi、Riccardo Campi等人于2026年提出的ZeroShot-T2I-Concepts数据集，探索利用零样本文本到图像（T2I）生成模型自动合成概念图像，以替代真实数据用于XAI方法。该研究系统评估了合成概念在表征对齐、语义稳定性、下游解释任务影响及反事实测试中的忠实度，为生成式AI辅助模型可解释性研究提供了重要基准，推动了合成数据在可解释性领域的规范化应用。

当前挑战

该数据集所解决的领域挑战在于：传统概念激活向量（CAV）方法依赖大量人工收集的真实概念图像，过程耗时费力且难以覆盖多样化的语义概念，严重阻碍了XAI方法的规模化应用。而采用零样本T2I模型生成合成概念虽能实现自动化与可扩展性，却面临两大构建挑战：其一，合成图像常含视觉伪影，且缺乏真实世界数据的丰富性与变异性，导致潜在表征的语义对齐度有限（平均余弦相似度仅约0.54–0.59）；其二，合成概念往往无法捕捉真实概念的固有多样性，在下游解释任务中，其归因分数与真实概念存在统计显著差异（KS检验p<10⁻⁶），且在反事实消融实验中影响更弱，凸显出当前生成模型难以准确复现真实概念解释行为的根本局限。

常用场景

经典使用场景

在可解释人工智能（XAI）领域，概念基于的解释方法通过将深度神经网络的内部表示与人类可理解的视觉特征相关联，以揭示模型决策背后的语义逻辑。ZeroShot-T2I-Concepts数据集最经典的应用场景是评估零样本文本到图像生成模型所合成的概念图像在概念基于的XAI方法中的忠实度。研究者借助该数据集，系统比较了由Flux、Stable Diffusion和GPT-Image-1等生成模型产生的合成概念与真实概念在表示对齐、内在相似性、下游解释任务表现及反事实测试四个维度的异同，从而验证合成数据能否可靠替代人工标注的真实概念。该场景为XAI领域提供了一套标准化的评估框架，推动了合成数据在模型可解释性研究中的规范使用。

实际应用

在实际应用中，ZeroShot-T2I-Concepts数据集为工业级视觉系统的可解释性部署提供了低成本的合成数据替代方案。对于需要频繁更新概念库以进行模型调试、偏见检测或可信度验证的场景，该数据集所验证的生成管道允许开发者仅通过文本提示快速合成大量概念图像，无需逐一搜集真实样本。例如，在自动驾驶的障碍物识别中，可动态生成“破碎纹理”“金属光泽”等概念图像，以检测模型对特定视觉特征的敏感性。此外，该框架还支持反事实解释——通过移除图像中的特定概念并观察归因变化，帮助工程师定位模型对干扰因素的过拟合行为，从而提升系统在实际环境中的鲁棒性与透明度。

衍生相关工作

ZeroShot-T2I-Concepts数据集衍生了一系列推动XAI与生成式AI交叉领域发展的经典工作。其一，研究者基于该数据集的评估框架提出了CAV细粒度对齐方法，通过少量真实样本微调生成模型以提升合成概念的语义保真度（如Camp等人2025年的研究工作）。其二，受该数据集揭示的合成概念多样性不足的启发，后续工作开发了多样性正则化的生成策略，结合对比学习约束T2I模型产生更具变异性的概念图像。其三，该数据集已成为概念基于XAI方法的通用验证基准，被用于评估新型解释技术（如Language-Guided CAV）在不同生成模型上的迁移效果。此外，其反事实测试模块也被借鉴用于构建因果解释的可控性实验，推动了可解释性研究方法论的系统化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集