SELF-BENCH

Name: SELF-BENCH
Creator: 达姆施塔特工业大学 & hessian.AI, 图宾根AI中心 & 图宾根大学
Published: 2025-05-23 22:29:52
License: 暂无描述

arXiv2025-05-23 更新2025-05-27 收录

下载链接：

https://github.com/eugene6923/Diffusion-Classifiers-Compositionality

下载链接

链接失效反馈

官方服务：

资源简介：

SELF-BENCH是一个由扩散模型自身生成的图像组成的诊断基准，旨在评估扩散分类器在其“熟悉”的图像上的表现。数据集包含由三种扩散模型（SD 1.5、2.0和3-m）生成的图像，用于测试模型在相同领域内的分类能力。数据集通过将图像生成任务与分类任务相结合，探索了模型在处理空间关系、属性绑定、计数等任务上的能力。

SELF-BENCH is a diagnostic benchmark composed of images generated solely by diffusion models, designed to evaluate the performance of diffusion classifiers on images that the models are familiar with. The dataset includes images generated by three diffusion models: SD 1.5, 2.0, and 3-m, and is used to test the models' classification capabilities within the same domain. By combining image generation tasks and classification tasks, this benchmark explores the models' abilities to handle tasks such as spatial relationships, attribute binding, and counting.

提供机构：

达姆施塔特工业大学 & hessian.AI, 图宾根AI中心 & 图宾根大学

创建时间：

2025-05-23

原始信息汇总

Diffusion-Classifiers-Compositionality 数据集概述

基本信息

数据集名称: Self-Bench
发布状态: 已发布
存储位置: Hugging Face平台

数据集访问

访问地址: https://huggingface.co/datasets/eugene6923/Self-Bench/tree/main/Self-Bench-Upload

备注

完整代码库和研究论文即将发布

搜集汇总

数据集介绍

构建方式

SELF-BENCH数据集的构建基于扩散模型生成的图像，旨在评估扩散分类器在判别任务中的表现。首先，从GenEval基准中收集文本提示，涵盖六种任务类型：颜色、颜色属性、计数、单对象、双对象和位置。对于每个提示，使用SD1.5、SD2.0和SD3-m三种扩散模型生成四张图像，并通过人工筛选去除生成失败的样本。随后，为每张图像构建判别性任务，保留原始生成提示作为正例，并创建负例提示。最后，评估扩散分类器在匹配生成图像与正确提示方面的表现。

特点

SELF-BENCH数据集的特点在于其完全由扩散模型生成的图像组成，涵盖了多种任务类型，包括对象识别、颜色属性绑定、空间关系理解和计数。数据集分为完整集（Full）和筛选后的高质量子集（Correct），确保评估的可靠性。此外，数据集支持域内和跨域评估，能够有效分析模型在不同数据分布下的表现。SELF-BENCH还通过人工标注确保了生成图像的质量和任务的多样性。

使用方法

SELF-BENCH数据集的使用方法包括三个主要步骤：首先，使用扩散模型生成图像并构建判别性任务；其次，通过人工筛选确保图像质量；最后，评估扩散分类器在域内和跨域设置下的表现。数据集支持零样本分类任务，可用于分析扩散模型在判别性任务中的表现，特别是在组合性理解方面的能力。此外，数据集还可用于研究域间差异对模型性能的影响，以及通过时间步加权优化模型表现。

背景与挑战

背景概述

SELF-BENCH是由TU Darmstadt、hessian.AI、Tübingen AI Center以及University of Tübingen的研究团队于2025年提出的一个诊断性基准数据集，旨在评估扩散分类器在生成模型自身数据上的判别能力。该数据集的构建基于Stable Diffusion 1.5、2.0和3-m三个版本的扩散模型生成的图像，涵盖了对象、属性、位置和计数等多种组合任务。SELF-BENCH的提出填补了现有组合性评估基准的不足，特别是在隔离领域效应方面，为研究生成模型与判别能力之间的关系提供了重要工具。该数据集通过人工筛选确保生成图像的质量，进一步提升了评估的可靠性。

当前挑战

SELF-BENCH面临的挑战主要包括两个方面：1) 领域问题的挑战：尽管扩散模型在生成复杂组合场景方面表现出色，但其在判别性组合任务中的表现仍有待深入探索，尤其是在跨领域场景下的性能下降问题；2) 构建过程中的挑战：生成图像的质量控制是一个重要挑战，需要人工筛选以确保评估的准确性。此外，不同扩散模型生成的图像风格差异较大，如何统一评估标准也是一个难题。时间步长加权策略的优化也是构建过程中的关键挑战之一，尤其是在低样本量设置下如何有效调整权重以提升模型性能。

常用场景

经典使用场景

SELF-BENCH数据集在计算机视觉领域被广泛应用于评估生成式扩散模型在判别性组合任务中的表现。该数据集通过模型自身生成的图像构建诊断性基准，特别适用于研究扩散模型在组合理解任务中的表现，如对象识别、属性绑定、空间关系和计数等。通过使用模型生成的图像，SELF-BENCH能够有效隔离领域效应，评估模型在“域内”和“跨域”场景下的表现。

衍生相关工作

SELF-BENCH的提出衍生了一系列相关研究工作。例如，基于该数据集的发现，研究人员提出了时间步加权策略以优化扩散分类器的性能。此外，该数据集还启发了对生成式模型判别性能力的更深入探索，如生成与判别能力之间的关系研究。其他经典工作包括扩散分类器的改进方法（如Discffusion和Gaussian Diffusion Classifier）以及组合理解任务的新基准（如CompBench和GenEval）。这些工作共同推动了生成式模型在判别性任务中的应用和发展。

数据集最近研究