MM-Hallu/hallusionbench
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/MM-Hallu/hallusionbench
下载链接
链接失效反馈官方服务:
资源简介:
用于评估视觉语言模型在幻觉和错觉推理方面能力的基准数据集。包含1,129个带有图像的示例。
Benchmark for evaluating visual-language models on hallucination and illusion reasoning. 1,129 examples with images.
提供机构:
MM-Hallu
搜集汇总
数据集介绍

构建方式
HallusionBench数据集由tianyi-lab团队精心构建,旨在评估视觉-语言模型在幻觉与错觉推理方面的能力。该数据集包含1,129个样本,每个样本均由图像与对应的问答对组成。数据集的特征包括类别、子类别、视觉输入、图像标识符、问题标识符、问题内容、标准答案及详细解析等关键字段。构建过程中,研究者通过人工设计与自动生成相结合的方式,系统性地引入了视觉与语言之间的不一致性,从而模拟出模型可能产生幻觉或误解的真实场景。
使用方法
使用HallusionBench数据集时,研究者可将图像与问题输入至待评估的视觉-语言模型,生成模型回答后与数据集中提供的标准答案进行比对。数据集以parquet格式存储,便于通过HuggingFace Datasets库加载。典型的使用流程包括:加载数据集、提取图像与问题、生成模型预测、计算准确率或进行错误类型分析。该数据集适用于多模态大模型的基准测试、模型对比研究以及幻觉与错觉现象的深入分析。
背景与挑战
背景概述
随着多模态大语言模型(MLLMs)的迅猛发展,视觉-语言系统在图像理解与语言推理任务中展现出惊人的能力,然而其生成的响应时常包含与视觉事实相悖的“幻觉”现象,严重制约了模型在关键领域的可信度与实用价值。为系统性揭示这一缺陷,哈尔滨工业大学(深圳)与南洋理工大学等机构的研究人员于2023年共同构建了HallusionBench数据集。该数据集聚焦于视觉幻觉与视错觉推理这一核心研究问题,通过精心设计的1,129个包含图像的测试样本,旨在评估模型在仅凭图像信息无法直接推断、或因图像歧义导致错误理解时的推理脆弱性。自发布以来,HallusionBench已成为评估MLLMs鲁棒性的重要标杆,推动了图幻觉诊断与缓解方向的研究进展。
当前挑战
HallusionBench所应对的首要挑战是视觉-语言模型中普遍存在的“视觉幻觉”问题,即模型会生成与图像事实矛盾或不一致的文本描述,这在医疗影像诊断、自动驾驶等高风险场景中尤为危险。其根本难题在于当前MLLMs过度依赖语言先验而忽视低层视觉信号,导致面对视错觉或多义性图像时推理偏误。在数据集构建过程中,研究人员遭遇了设计能精准诱发模型幻觉、同时保证答案唯一且可验证的样本的困难,每一例都需要精心挑选图像并设计提问,以使模型的假阳性或假阴性推理显露无遗。此外,平衡图像与问题之间的难易梯度,以避免地板效应或天花板效应,同样是构建过程中不可回避的挑战。
常用场景
经典使用场景
HallusionBench 作为视觉-语言模型幻觉与错觉推理评估的标杆性数据集,其经典使用场景在于系统性评测多模态大模型对图像内容的理解忠实度。该数据集精心设计了涵盖逻辑悖论、光学幻觉、物理常识冲突等复杂视觉场景的 1,129 个样本,要求模型在图文联合推理中区分感知错觉与真实语义,从而精准暴露模型在跨模态对齐中的脆弱性。研究者常通过此基准检验模型对空间关系、数量统计、因果推断等高级认知任务的把控能力,为揭示模型“看似理解实则臆测”的深层缺陷提供标准化测试平台。
解决学术问题
该数据集核心解决了视觉语言模型在生成文本时普遍存在的“幻觉”与“错觉”辨识难题。学术研究中,现有模型常因过度依赖语言先验或视觉特征误判,产生与图像事实不符的虚构描述。HallusionBench 通过结构化对抗样本,量化了模型在几何尺寸、颜色变化、材质属性等物理维度上的感知偏差,并首次将认知心理学中的错觉范式引入 AI 评估体系。其意义在于推动研究者从“答案正确性”转向“推理因果性”的范式革新,为构建可信赖视觉理解系统奠定方法论基础。
实际应用
在实际应用中,HallusionBench 驱动着高可靠性视觉问答系统的进化。例如在医学影像分析领域,模型需通过该基准验证对解剖结构畸变的抗干扰能力,避免因血管形态的视觉错觉导致误诊;在自动驾驶场景中,其能筛选出对路面反光、阴影变形等视觉陷阱具有稳态识别能力的感知模块。工业级视觉助手、智能内容审核系统等需确保图文一致性的产品,均以通过 HallusionBench 筛查作为可靠性认证的重要环节,从而过滤掉可能引发安全事故的视觉错误。
数据集最近研究
最新研究方向
HallusionBench作为评估视觉语言模型在幻觉与错觉推理能力的基准测试,近期研究聚焦于揭示多模态大模型在复杂视觉场景中的认知偏差。该数据集通过精心设计的1129个跨类别样本,系统性地检验模型对图像细节的忠实理解与逻辑推理,尤其关注模型在空间关系、数值比较和常识违背等人眼易察觉情境下的表现。当前前沿方向涵盖模型幻觉的修复机制、对抗性样本生成策略,以及基于该基准的模型鲁棒性提升方法,其意义在于推动视觉语言模型从表面模式匹配向深层认知推理演进,为构建更可靠的人工智能系统提供关键验证工具。
以上内容由遇见数据集搜集并总结生成



