MM-Hallu/HQHBench
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/MM-Hallu/HQHBench
下载链接
链接失效反馈官方服务:
资源简介:
HQHBench是一个用于评估幻觉现象的基准测试数据集,包含4,000个自由形式的视觉问答对,涵盖8种幻觉类型(OCR、动作、属性、比较、计数、环境、存在、关系)。图像来源于Visual Genome。数据集的特征包括唯一条目ID、Visual Genome图像、图像ID、问题/指令、预期答案、幻觉类型和图像描述。
HQHBench is a hallucination evaluation benchmark with 4,000 free-form VQA pairs across 8 hallucination types (OCR, action, attribute, comparison, count, environment, existence, relation). Images are sourced from Visual Genome.
提供机构:
MM-Hallu
搜集汇总
数据集介绍

构建方式
HQHBench是一个用于评估多模态大模型幻觉现象的基准数据集,其构建基于Visual Genome数据集中的图像资源。研究人员从Visual Genome中精心选取了多样化的图像,并针对每张图像设计了自由形式的视觉问答(VQA)对,共计4,000对。这些问答对覆盖了8种典型的幻觉类型,包括OCR、动作、属性、比较、计数、环境、存在性和关系。每个样本都包含唯一标识符、图像、问题指令、标准答案、幻觉类型标注以及图像描述,确保了评估的全面性和结构性。
特点
该数据集的核心特点在于其系统性的幻觉类型划分,涵盖了多模态模型可能产生误导性回答的多种场景。4,000个问答对均为自由形式,模拟了真实应用中的开放式提问,增强了评估的生态效度。此外,数据集基于Visual Genome的丰富图像场景,确保了图像内容的多样性和复杂性。每个样本的'type'字段明确标注了幻觉类别,便于研究者针对特定幻觉现象进行深入分析,从而推动模型在视觉理解中的可靠性提升。
使用方法
HQHBench以Parquet格式存储,并已在Hugging Face上发布,用户可通过datasets库直接加载。使用前需确保环境已配置好datasets和PIL等依赖。加载默认配置后,数据集包含一个test split,其中每条记录包括图像、指令、真实答案和幻觉类型。评估时,研究者可将模型生成的回答与ground_truth字段进行对比,并根据type字段分类统计各幻觉类型的准确率,从而系统地衡量模型的幻觉倾向和视觉语义理解能力。
背景与挑战
背景概述
在大型多模态模型迅猛发展的当下,幻觉现象——即模型生成与视觉输入不一致内容的倾向——成为制约其可靠性的核心瓶颈。HQHBench数据集于近期由相关研究团队构建,依托Visual Genome的丰富图像资源,精心设计了4,000个开放式视觉问答对,覆盖OCR、动作、属性、比较、计数、环境、存在性和关系等八类典型幻觉类型。该基准的创立旨在系统性地评估与诊断多模态模型在细粒度视觉理解任务中的幻觉问题,为领域内提供标准化的评测工具,其发布显著推动了对模型视觉-语言对齐能力的深入理解,并对后续去幻觉算法的开发产生了重要影响。
当前挑战
HQHBench所应对的领域挑战是多模态模型在生成文本时易产生与图像事实相悖的幻觉,这一问题在长期场景理解中尤为突出,严重阻碍了模型在高风险应用中的可信部署。构建过程中面临的挑战包括:如何从Visual Genome的复杂场景中精准抽取出能诱发特定幻觉类型的多样化图像与问题组合,如何确保每类幻觉样本的平衡性与代表性以避免评测偏差,以及如何通过人工标注和交叉验证来保证ground-truth答案的准确性与一致性,从而构建一个高质量、高可靠性的评估基准。
常用场景
经典使用场景
在视觉语言模型(VLM)迅猛发展的当下,模型生成内容与图像事实的偏差——即幻觉现象——成为制约其可靠性的核心瓶颈。HQHBench应运而生,作为一个精细化的幻觉评估基准,其经典使用场景聚焦于系统性地量化多模态大模型在自由形式问答(VQA)中的幻觉程度。该基准精心设计了4000条覆盖八种幻觉类型(如OCR、动作、属性、比较、计数、环境、存在性及关系)的问答对,数据来源于Visual Genome的真实图像,从而为研究者提供了一套全面且结构化的测试工具,用以揭示模型在理解不同视觉元素时可能出现的认知偏差。
解决学术问题
HQHBench的诞生意在填补现有幻觉评估基准覆盖面不全、分类粗糙的学术空白。通过系统归因八种特定幻觉类型,该数据集解决了如何精确定位视觉语言模型在哪些视觉维度上容易产生错误推理的学术难题。其深远意义在于,它不仅为对比不同模型的抗幻觉能力提供了标准化的度量标尺,更关键的是,它帮助研究人员从细粒度层面剖析失败案例,从而推动了诸如基于注意力机制修正、对抗训练或结构化知识注入等针对性去幻觉方法的探索,对提升多模态系统的可信赖性与鲁棒性具有重要的学术价值。
衍生相关工作
围绕HQHBench这一细粒度幻觉评估框架,学术界已衍生出一系列富有启发性的后续工作。一方面,研究者借鉴其八类幻觉的划分逻辑,尝试构建更具挑战性的动态或开放式幻觉测试集,以评估模型在未见场景下的泛化能力。另一方面,HQHBench提供的结构化错误分析催生了一系列针对性去幻觉算法的改进实验,例如通过引入外部视觉常识知识库来缓解关系幻觉、利用局部感知增强模块抑制属性幻觉等。这些衍生工作不仅在原基准上刷新了性能记录,更深化了学界对视觉语言模型内部幻觉产生机制的理解,形成了一个从评测、诊断到修复的闭环研究生态。
以上内容由遇见数据集搜集并总结生成



