HalluSegBench

Name: HalluSegBench
Creator: 伊利诺伊大学香槟分校
Published: 2025-06-27 01:59:12
License: 暂无描述

arXiv2025-06-27 更新2025-06-28 收录

下载链接：

https://plan-lab.github.io/hallusegbench/

下载链接

链接失效反馈

官方服务：

资源简介：

HalluSegBench是一个用于评估视觉语言分割中像素级幻觉的基准数据集。该数据集由1340个事实-反事实图像对组成，跨越281个独特的物体类别，旨在通过反事实视觉推理来评估模型对像素级幻觉的敏感性。数据集的创建过程是通过对RefCOCO数据集中的图像进行精确的对象替换，生成视觉上连贯但语义上不同的图像对。该数据集广泛应用于视觉语言模型分割模型的评估，旨在解决模型在复杂视觉场景中像素级理解时的幻觉问题。

HalluSegBench is a benchmark dataset for evaluating pixel-level hallucinations in vision-language segmentation tasks. It consists of 1,340 fact-counterfactual image pairs spanning 281 unique object categories, designed to assess a model's sensitivity to pixel-level hallucinations via counterfactual visual reasoning. The dataset is constructed by precisely replacing objects in images from the RefCOCO dataset to generate visually coherent yet semantically distinct image pairs. This benchmark is widely used for evaluating vision-language segmentation models, aiming to address the hallucination issue when models perform pixel-level comprehension in complex visual scenarios.

提供机构：

伊利诺伊大学香槟分校

创建时间：

2025-06-27

原始信息汇总

HalluSegBench: Counterfactual Visual Reasoning for Segmentation

概述

数据集名称: HalluSegBench
研究领域: 视觉语言分割中的幻觉评估
开发团队: PLAN Lab, University of Illinois Urbana-Champaign
主要作者: Xinzhuo Li, Adheesh Juvekar (共同第一作者), Xingyou Liu, Muntasir Wahed, Kiet A. Nguyen, Ismini Lourentzou

核心贡献

新基准测试:
- 首个使用反事实图像-文本对评估分割幻觉的基准
- 包含1,340个反事实实例对，涵盖281个对象类别
新评估指标:
- 引入4个新指标量化视觉/文本反事实下的幻觉严重程度
- 评估语义先验的过度依赖和幻觉掩码的空间合理性
实证发现:
- 现有视觉语言分割模型在视觉编辑下比文本编辑更容易产生幻觉
- 模型经常持续产生错误分割，凸显反事实推理诊断的必要性

数据集特点

数据规模: 1,340个反事实实例对
类别覆盖: 281个独特对象类别
评估维度:
- 文本和视觉IoU下降(ΔIoUtextual, ΔIoUvisual)
- 事实和反事实混淆掩码评分(CMS)
- 对比幻觉指标(CCMS)

相关资源

论文: arXiv:2506.21546
BibTeX引用: bibtex @article{li2025hallusegbench, title={HalluSegBench: Counterfactual Visual Reasoning for Segmentation Hallucination Evaluation}, author={Li, Xinzhuo and Juvekar, Adheesh and Liu, Xingyou and Wahed, Muntasir and Nguyen, Kiet A and Lourentzou, Ismini}, journal={arXiv preprint arXiv:2506.21546}, year={2025} }

搜集汇总

数据集介绍

构建方式

HalluSegBench数据集的构建基于RefCOCO数据集的验证和测试分割，通过系统化的对象替换方法生成反事实图像对。具体而言，针对每个事实图像，研究团队识别出适合替换的目标对象实例，并生成确定性的编辑指令，如“将<对象A>替换为<对象B>”。这些指令驱动自动化图像编辑模块生成视觉一致的反事实图像。为确保数据质量，编辑过程严格遵循单对象修改策略，保持其他视觉元素不变，从而精确隔离反事实编辑的语义和视觉影响。每个事实图像保留RefCOCO提供的原始掩码，而反事实图像的掩码则根据替换类别标签生成。

特点

HalluSegBench数据集包含1340个事实-反事实图像对，涵盖281个独特对象类别，总计2680个分割掩码和2342张图像。该数据集的特点在于其反事实图像对的构建方式，即通过替换目标对象生成视觉连贯但语义不同的场景，从而精确评估模型在视觉证据缺失时的分割行为。数据集中大多数掩码占图像面积的5-10%，反映了真实场景中对象通常作为更大视觉上下文的一部分。此外，高频替换对涉及视觉和语义相似的对象，增加了模型区分细粒度视觉细节的难度。

使用方法

HalluSegBench数据集的使用方法聚焦于评估视觉-语言分割模型在反事实视觉推理下的幻觉行为。研究人员通过对比模型在事实图像和反事实图像上的预测分割掩码，系统分析模型是否基于真实视觉证据或语义先验进行预测。具体评估过程涉及四种预测分割掩码场景：事实图像中的目标对象分割、事实图像中反事实对象的分割、反事实图像中原目标对象的分割，以及反事实图像中新对象的分割。此外，数据集配套提供了一系列新颖的评估指标，包括基于一致性的性能指标和直接幻觉指标，用于量化模型在视觉或文本反事实下的性能退化情况以及幻觉掩码的空间结构。

背景与挑战

背景概述

HalluSegBench是由伊利诺伊大学厄巴纳-香槟分校的研究团队于2025年提出的首个基于反事实视觉推理的视觉语言分割幻觉评估基准。该数据集包含1340个反事实实例对，涵盖281个独特物体类别，旨在解决现有评估协议在像素级视觉基础幻觉检测上的局限性。作为视觉语言模型(VLMs)在密集预测任务中的关键评估工具，其通过系统性地替换图像中的目标物体并保持场景上下文不变，为诊断模型对语义先验的依赖提供了可控实验框架，推动了细粒度视觉推理领域的研究进展。

当前挑战

HalluSegBench针对视觉语言分割模型面临的核心挑战包括：1) 像素基础幻觉的量化难题，即模型生成与图像内容无关但空间合理的分割掩码；2) 反事实数据构建的技术复杂性，需确保物体替换的视觉连贯性同时维持场景真实性；3) 评估指标的创新需求，传统交并比(IoU)无法有效捕捉语义误导型幻觉。在构建过程中，研究团队需克服RefCOCO数据集原始标注的指代表达歧义性，并通过扩散模型实现像素级精确编辑以避免场景结构破坏，这些技术挑战使该数据集成为当前视觉基础领域最具严格性的评估基准之一。

常用场景

经典使用场景

HalluSegBench数据集在视觉-语言分割模型的评估中扮演了关键角色，特别是在检测模型是否会产生幻觉分割方面。该数据集通过构建事实与反事实图像对，要求模型在视觉内容被微妙修改的情况下仍能准确分割目标对象。这种评估方式能够有效揭示模型是否过度依赖语义先验而非真实的视觉证据。

解决学术问题

HalluSegBench解决了视觉-语言分割模型中的幻觉问题，即模型在没有视觉依据的情况下错误地分割对象或错误标记无关区域。通过引入反事实视觉推理，该数据集提供了一种系统化的方法来诊断模型在像素级分割中的失败案例，填补了现有评估协议在视觉上下文操纵方面的不足。

衍生相关工作

HalluSegBench的发布激发了多项相关研究，特别是在反事实视觉推理和幻觉抑制技术方面。例如，一些研究团队基于该数据集开发了新的训练策略和模型架构，以增强模型在视觉-语言任务中的分割准确性和鲁棒性。此外，该数据集还被用于评估和比较不同视觉-语言模型在复杂场景中的表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集