HalluCompass

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/anonymous80934/HalluCompass

下载链接

链接失效反馈

官方服务：

资源简介：

HalluCompass 是一个用于诊断和路由视觉-语言模型（VLM）幻觉的方向感知评估套件。该数据集包含 2,200 张图像和 10,000 个查询，覆盖了四种图像来源（MS-COCO val2014、AMBER、NoCaps val、VizWiz val），并混合了干净的工作室照片、精心设计的幻觉触发、OOD 对象类别和盲人摄影。数据集提供了 12 种配置，包括四种提示格式和三种难度分割。此外，还包含一个平衡的 POPE 兼容子集（3,000 个查询，严格 1:1 的是/否比例）。数据集通过两阶段标注协议生成，第一阶段由 GPT-4o-mini 生成结构化候选标注，第二阶段由五名人类标注者验证和精炼，Fleiss κ 为 0.72，显示标注者间一致性较高。数据集还提供了预计算的模型评分卡、DSA 协议、v1.1 路由规则和词汇规范化层，适用于视觉问答和图像到文本任务。

HalluCompass is a direction-aware evaluation suite for diagnosing and routing hallucinations in vision-language models (VLMs). The dataset includes 2,200 images and 10,000 queries, covering four image sources (MS-COCO val2014, AMBER, NoCaps val, VizWiz val), and mixes clean studio photos, carefully designed hallucination triggers, OOD object categories, and blind photography. The dataset provides 12 configurations, including four prompt formats and three difficulty splits. Additionally, it includes a balanced POPE-compatible subset (3,000 queries, strictly 1:1 yes/no ratio). The dataset is generated through a two-stage annotation protocol, where the first stage involves GPT-4o-mini generating structured candidate annotations, and the second stage involves verification and refinement by five human annotators, with a Fleiss κ of 0.72, indicating high inter-annotator agreement. The dataset also provides pre-computed model scorecards, DSA protocol, v1.1 routing rules, and lexical normalization layers, suitable for visual question answering and image-to-text tasks.

创建时间：

2026-05-05

原始信息汇总

数据集概述

HalluCompass 是一个面向视觉语言模型（VLM）幻觉评估的方向感知评测套件，旨在诊断并路由VLM的幻觉行为。该数据集已被NeurIPS 2026 Datasets & Benchmarks Track接收。

核心特点

方向感知评估：首次引入有符号幻觉评分，区分“是偏误”（yes-bias，过度声称不存在的物体）和“否偏误”（no-bias，遗漏存在的物体），而非仅报告单一幅度标量。
提示模式路由：基于模型的偏误方向自动推荐最优提示模式（plain、skeptical、cot），在10个模型的可复现评估池中路由规则准确率达100%。
校准的随意幻觉率：留一法平均绝对误差约16个百分点，较仅用二元假阳性基线的模型提升4.5倍。

数据规模与组成

图像：2,200张图像，来源于4个数据集：MS-COCO val2014、AMBER、NoCaps val、VizWiz val。
查询：10,000条查询，覆盖4种提示格式（二元识别、视觉上下文叙述、定位、反事实）× 3种难度划分（随机、流行度诱导、对抗共现）= 12个配置。
POPE兼容子集：3,000条查询，严格1:1 yes/no平衡，支持与传统基准直接比较。

数据集配置

数据集包含12个主要配置，以及一个POPE兼容子集：

配置名称	说明
`id_rand`、`id_pop`、`id_adv`	二元识别格式
`vc_rand`、`vc_pop`、`vc_adv`	视觉上下文叙述格式
`loc_rand`、`loc_pop`、`loc_adv`	定位格式
`cf_rand`、`cf_pop`、`cf_adv`	反事实格式
`pope_compat`	POPE兼容子集

标注协议

采用两轮标注流程，经统计验证：

第一轮：GPT-4o-mini对所有2,200张图像进行结构化候选标注。
第二轮（验证）：5名人类标注者，每人负责约440张图像的优化/核对。
IAA验证：5名标注者共同标注250张分层抽样子集，Fleiss κ = 0.72（基本一致性）。

支持的模型（10个VLM面板）

家族	模型
Idefics3	SmolVLM-2.25B、SmolVLM2-2.2B、Idefics3-8B
Qwen-VL	Qwen2-VL-2B、Qwen2.5-VL-3B
LLaVA	LLaVA-1.5-7B、LLaVA-OneVision-7B
InternVL	InternVL2-2B
Phi	Phi-3.5-vision
ChatGLM	GLM-4V-9B

路由规则

python def route(signed_score, plain_FP): if plain_FP > 0.25: return "plain" if signed_score > +0.06: return "skeptical" if signed_score < -0.10: return "cot" return "plain"

发布内容

2,200张图像 × 10,000条查询
POPE兼容子集（3,000条查询）
冻结的16词形容词分区（6个是偏误 + 5个否偏误 + 5个通用）
36个词条的词汇归一化层
DSA协议（基于锚点自由的思维链形容词抽取）
v1.1路由规则
10个预计算模型评分卡
Croissant 1.0 + RAI 1.0元数据

许可与链接

注释/查询/分区/评分卡/元数据：CC-BY 4.0
图像许可：各图像源自有独立许可（MS-COCO: CC-BY 4.0；AMBER: 仅研究重分发；NoCaps: CC-BY-SA；VizWiz: CC-BY 4.0）
GitHub：https://github.com/dlwlsrnjs/halluc-signed
HuggingFace仓库：https://huggingface.co/datasets/anonymous80934/HalluCompass

搜集汇总

数据集介绍

构建方式

HalluCompass数据集构建基于一个严谨的标注流程，涵盖2,200张图像，每张都经两阶段处理：首先由GPT-4o-mini在确定性解码下生成结构化候选标注，随后由5名人类标注者验证与修正，其中250张子集用于五方独立标注以统计组间一致性。Fleiss' κ系数达0.72，体现显著一致性。数据集从MS-COCO、AMBER、NoCaps、VizWiz四个来源精选图像，融合不同类型视觉场景，针对VLM幻觉设计含三类难度（随机、流行度、对抗模式）的问题，构建12个配置子集，并衍生出严格平衡的POPE兼容子集，确保评估的全面性与可比性。

使用方法

用户可通过HuggingFace的datasets库便捷加载HalluCompass，指定配置名（如id_adv）训练或评估VLM模型的幻觉倾向。使用前需安装datasets与huggingface_hub，并解压图像文件。数据集提供预计算评分卡及完整复现脚本，支持快速评估幻觉方向与路由推荐。每条查询包含对象、标签、偏误方向等字段，用户可结合DSA协议对模型错误预测进行形容词提取与极性分析，从而诊断出偏误类型并获得针对性提示策略（如plain、skeptical或cot），用于动态优化模型输出质量。

背景与挑战

背景概述

在视觉语言模型（VLM）蓬勃发展的时代，幻觉现象——模型生成与图像内容不符的描述——成为制约其可靠部署的关键瓶颈。现有评估基准如POPE、AMBER等虽能量化错误率，却将“过度声称物体存在”与“遗漏实际物体”两种异质失败模式混为一谈，导致方向性诊断缺失。在此背景下，2026年NeurIPS数据集与基准轨道发布的HalluCompass应运而生。该数据集由匿名研究团队构建，以2,200幅图像与10,000条查询为基石，覆盖MS-COCO、AMBER、NoCaps与VizWiz四大图像源。其核心创新在于提出“有向符号幻觉评分”（DSA），首次将评估从一维精度指标拓展至偏置方向诊断维度。通过实验验证，DSA在10个模型上的判别范围比POPE的F1分数宽了4.7倍，并实现了100%的提示模式路由准确率，标志着幻觉评估从“量化大小”向“诊断方向”的范式跃迁。

当前挑战

HalluCompass所应对的核心挑战在于：传统基准因忽视偏置方向而无法为不同VLM推荐适配的提示策略。例如，POPE的“是答案比率”对8/10的模型判定为“平衡”，但DSA揭示其中隐藏的严重方向依赖——对抗性提示可能放大而非抑制幻觉（如对Phi-3.5-vision应用思维链提示致假阳性率从14%飙升至38%）。此外，构建过程中需解决两大难题：一是跨图像源（干净摄影、OOD物体、盲人摄影）的分布偏移，其假阳性率在难易样本间波动达1.71至2.39倍；二是人工标注的质量控制，通过了250图像子集上5位标注员的Fleiss' κ=0.72验证，确保结构化输出经人力校准。最终，数据集通过12种配置统一了二进制、视觉上下文、定位与反事实四种查询格式，并配备标准化形容词分区与同义词映射层，为后续研究提供了可复现的评估生态。

常用场景

经典使用场景

在多模态大模型幻觉评测领域，HalluCompass被设计为一种方向感知的诊断套件，用于系统性地评估视觉语言模型在图像描述与问答任务中产生幻觉的倾向。其经典使用方式涵盖二元存在性判断、视觉上下文叙述、空间定位以及反事实推理四种提示格式，每种格式下又包含随机、流行度诱导与对抗性共现三种难度切分，共计十二个配置子集。研究者可通过加载特定配置（如id_adv），利用模型对预设问题的回答获取二进制预测与自由形式的形容词化解释，进而计算带有正负符号的幻觉评分，精准区分模型是倾向于过度声称（yes-bias）还是遗漏真实对象（no-bias）。这一机制超越了传统仅报告准确率或F1分数的标量评价范式，为多模态幻觉研究提供了更具解读能力的评估工具。

解决学术问题

该数据集直面多模态大模型幻觉评估中长期存在的根本性困境：传统基准如POPE、AMBER、HALLUCINOGEN仅汇报单一的幅度指标（如准确率、F1或假阳性率），将两种本质上截然不同的失败模式——过度声称（yes-bias）与遗漏真实对象（no-bias）——混为一谈，导致误差相互抵消后模型被误判为平衡。HalluCompass通过引入方向感知的有符号评分（DSA signed score），将评测维度从单一标量拓展至具有方向性的诊断空间，在十款主流模型的验证池中实现了4.7倍于POPE F1的区分跨度，并首次揭示了若忽视偏差方向，错误的提示干预（如对no-bias模型使用skeptical提示）反而会显著加剧幻觉。这一设计从方法论层面校准了学术界对于幻觉本质的认知，使研究者得以识别被算术均值掩埋的真实偏差模式。

实际应用

在实际部署场景中，HalluCompass的核心贡献在于提供一个可自动执行的提示路由规则，能够在识别出任意新视觉语言模型的偏差方向后，推荐最佳的提示策略（plain、skeptical或cot）。对于医疗影像辅助诊断、自动驾驶场景理解、视觉问答客服系统等高风险应用而言，这一机制尤为关键——它确保模型不会因使用不恰当的提示策略而从安全误差滑向灾难性幻觉。例如，当检测到模型呈现yes-bias（过度声称）时，路由规则会推荐skeptical提示以抑制虚假断言；而当模型呈现no-bias（遗漏真实对象）时，则推荐cot提示以增强细粒度推理。在十款模型的验证池中，该路由规则实现了100%的最佳模式匹配准确率，具备直接投入工业级推理管线的成熟度。

数据集最近研究