CAFE

github2026-05-09 更新2026-05-10 收录

下载链接：

https://github.com/T-S-Liang/CAFE

下载链接

链接失效反馈

官方服务：

资源简介：

CAFE是一个用于评估可提示分割模型中概念忠实分割的基准。它测试模型是否忠实于查询的概念，或者依赖于视觉上显著但语义上误导的线索，使用了2,146对反事实样本，涵盖三种编辑类型：表面模仿（SM）、上下文冲突（CC）和本体冲突（OC）。

CAFE is a benchmark for evaluating conceptually faithful segmentation in promptable segmentation models. It tests whether models remain faithful to the queried concepts, or instead rely on visually salient yet semantically misleading cues, using 2,146 counterfactual sample pairs covering three editing types: Surface Mimicry (SM), Contextual Conflict (CC), and Ontological Conflict (OC).

创建时间：

2026-04-27

原始信息汇总

CAFE: 反事实属性事实性评估数据集

数据集概述

CAFE（Counterfactual Attribute Factuality Evaluation）是一个用于评估可提示分割模型中概念忠实分割能力的基准数据集。该数据集旨在测试模型是否能够忠实于所查询的概念进行分割，还是依赖于视觉上显著但语义上具有误导性的线索。

数据集规模

包含 2,146 个配对的反事实样本

编辑类型

数据集涵盖三种反事实编辑类型：

编辑类型	描述
表面模仿（SM）	改变物体表面纹理以模仿另一类别
上下文冲突（CC）	将物体放置在具有误导性的上下文中
本体冲突（OC）	改变物体的材质/物质，同时保留其形状

访问链接

项目页面: https://t-s-liang.github.io/CAFE/
数据集下载: https://huggingface.co/datasets/teemosliang/CAFE
代码仓库: https://github.com/T-S-Liang/CAFE

搜集汇总

数据集介绍

构建方式

CAFE基准数据集旨在评估可提示分割模型在概念忠实分割方面的表现。通过构建2,146组配对的反事实样本，数据集涵盖了三种编辑类型：表面模仿（SM）通过改变表面纹理使物体模仿另一类别；上下文冲突（CC）将物体置于误导性背景中；本体冲突（OC）在保留物体形状的前提下改变其材质或物质属性。每对样本包含原始图像与经过反事实编辑的图像，形成对照测试环境。

特点

CAFE数据集的核心特点在于其反事实设计，能够揭示模型是否依赖视觉显著性但语义误导的线索，而非真正理解查询概念。三种冲突类型从纹理、背景和本体属性维度系统性地挑战模型的概念理解能力，为评估分割模型的语义鲁棒性提供了精细化的测试框架。样本规模适中，兼顾了评估全面性与实验可行性。

使用方法

使用CAFE数据集时，研究人员可将原始图像与反事实编辑图像分别输入预训练的分割模型，比较模型对同一查询概念的预测结果。通过分析模型在两种场景下的分割一致性，能够量化模型对概念特征的实际依赖程度。具体地，评估指标可计算模型在原始与反事实样本上的预测差异，差异越小说明模型对概念的忠实理解越强。

背景与挑战

背景概述

在计算机视觉领域，提示性分割模型致力于将图像中的像素精准映射至语义概念，然而，模型在复杂场景中是否真正理解其所分割的语义，抑或仅依赖视觉显著性线索做出判断，始终是研究者关注的核心问题。CAFE（Counterfactual Attribute Factuality Evaluation）数据集应运而生，由Shuang Liang、Zeqing Wang、Yuxian Li、Xihui Liu及Han Wang等学者于近期构建，旨在评估分割模型对概念忠实度。该数据集包含2,146对反事实样本，通过表面模仿、语境冲突与本体冲突三种编辑类型，系统性地检验模型在面临反事实扰动时的表现，为揭示模型概念理解缺陷提供了关键工具，对提升可解释性与鲁棒性具有重要影响。

当前挑战

CAFE数据集应对的领域挑战在于：传统分割评估聚焦于像素级准确率，未能暴露模型依赖误导性线索（如纹理、环境上下文）而非目标语义进行分割的问题。通过反事实样本，CAFE揭示模型在视觉显著性特征与概念真值相悖时的脆弱性。构建过程中，挑战尤为突出：首先，生成高质量反事实样本需在保持形状、材质或背景变化的同时确保视觉真实性，避免人为伪影干扰评估；其次，定义不同编辑类型（如本体冲突中改变材料而保留形状）需要精准平衡语义边界，以防样本本身成为歧义数据；此外，构建2146对样本的规模要求对每类反事实扰动进行精细控制，耗费大量人力与计算资源，且需确保样本覆盖度以避免偏向特定场景。

常用场景

经典使用场景

CAFE数据集为可提示分割模型的概念忠实性评估提供了标准化基准，其核心应用场景在于检验模型是否能真正理解并分割语义概念，而非依赖视觉上显著但语义上误导的线索。通过精心设计的2,146对反事实样本，涵盖表观模仿、情境冲突与本体冲突三种编辑类型，该数据集能够系统性地揭示模型在面对纹理误导、场景干扰及材质混淆时的脆弱性，从而推动分割模型从像素级匹配向概念级理解的跨越。

衍生相关工作

CAFE数据集的提出催生了一系列概念忠实性相关研究。后续工作借鉴其反事实评估框架，拓展至开放式词汇分割、指代分割等更细粒度任务。部分研究以CAFE为测试基准，发展出对抗训练、概念解耦等提升模型语义理解能力的改进方法。此外，其三类反事实编辑设计启发了图像编辑领域的因果推理研究，形成从评估到增强的完整技术链条。这些衍生工作共同构建了理解视觉模型决策机制的研究生态。

数据集最近研究