MM-Hallu/HaloQuest
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/MM-Hallu/HaloQuest
下载链接
链接失效反馈官方服务:
资源简介:
HaloQuest是一个视觉问答基准数据集,用于评估视觉语言模型中的幻觉现象。包含7,609个示例,既有真实图像(来自Open Images),也有合成图像(来自Midjourney)。数据集包含多个字段,如id、image、image_name、url、image_type(real或generated)、hallucination_type(false premises、visual challenge或insufficient context)、question、groundtruth_responses和split(eval或train)。
HaloQuest is a visual question answering benchmark for evaluating hallucination in vision-language models. Contains 7,609 examples with both real (Open Images) and synthetic (Midjourney) images. The dataset includes fields such as id, image, image_name, url, image_type (real or generated), hallucination_type (false premises, visual challenge, or insufficient context), question, groundtruth_responses, and split (eval or train).
提供机构:
MM-Hallu
搜集汇总
数据集介绍

构建方式
HaloQuest数据集专为评估视觉语言模型中的幻觉现象而构建,其设计兼具系统性挑战与多样性。该数据集汇集了7,609个视觉问答样本,涵盖两类图像来源:一类是源自Open Images的真实图像,另一类则是通过Midjourney生成的合成图像。每个样本均包含图像、问题及其对应的标准答案。数据集的核心构建体现在其幻觉类型的精细分类上,包括“虚假前提”、“视觉挑战”与“上下文不足”三类,旨在全面覆盖模型可能产生幻觉的不同场景,从而为评估模型的可靠性提供多维度的测试基准。
特点
HaloQuest的一大显著特征在于其结构化的幻觉分类体系:每一条数据都依据其诱导幻觉的潜在模式被标注为三类之一,这为细粒度分析模型在不同幻觉诱发条件下的表现提供了可能。此外,数据集合成了真实与合成图像两种模态,不仅考验模型对自然场景的理解,更对其在生成场景下的泛化能力提出挑战。数据集以开源形式发布,并已官方划分为评估与训练两个子集,便于研究者在统一的基准上进行对比实验,从而有效推动视觉语言模型在幻觉抑制方面的研究。
使用方法
使用HaloQuest时,研究者可直接利用HuggingFace数据集库加载预分割好的训练集与评估集。每个样本的核心字段包括图像(image)与问题(question),而模型生成的回答需与groundtruth_responses字段中经JSON编码的有效答案列表进行比对。评估过程要求模型在给定图像的前提下回答问题,通过考察其输出是否落入标准答案集合、是否符合事实信息来量化幻觉程度。标准化的字段设计与公开的评估拆分方案,使得HaloQuest能够无缝嵌入现有的视觉语言模型评测流程,促进可复现的研究成果产出。
背景与挑战
背景概述
HaloQuest数据集由谷歌团队于2024年创建,旨在系统性地评估视觉-语言模型中的幻觉现象。随着多模态大模型的快速发展,模型在视觉理解任务中生成的文本内容常存在与图像事实不符的幻觉问题,这成为制约其可靠性的关键瓶颈。HaloQuest包含7,609个精心设计的问答样本,覆盖真实图像(源自Open Images)与合成图像(由Midjourney生成),并针对幻觉类型(虚假前提、视觉挑战、上下文不足)进行分类标注。该数据集为探索视觉-语言模型的认知边界提供了标准化评估基准,推动了模型幻觉检测与缓解技术的研究进展。
当前挑战
HaloQuest所解决的领域核心挑战在于视觉-语言模型中的幻觉问题,即模型生成的描述或回答与图像实际内容不一致,这类错误在医疗影像解读、自动驾驶等高风险应用中可能导致严重后果。数据集构建过程中面临双重挑战:一方面,需要系统性地设计能诱发幻觉的复杂场景,例如包含视觉歧义、误导性上下文的图像-问题对;另一方面,需确保真实图像与合成图像的分布多样性,避免因数据偏差导致模型性能误判,同时通过多轮专家审核保证标注质量,从而为幻觉检测提供可靠且具有挑战性的测试样本。
常用场景
经典使用场景
HaloQuest 作为一项专门针对视觉语言模型幻觉评估的视觉问答基准,其经典使用场景在于系统性地衡量模型对图像内容的理解与推理是否忠实于视觉事实。该数据集融合了真实图像与生成式图像,精心设计了涵盖错误前提、视觉挑战和上下文不足三类幻觉类型的多样化问题,旨在引导研究者在可控条件下检验模型是否会产生与图像实际内容不符的应答。通过要求模型针对给定图像回答问题,并比对标准答案,HaloQuest 为量化多模态大语言模型的幻觉倾向提供了标准化测试平台,成为评估模型可靠性和可信度的关键工具。
衍生相关工作
HaloQuest 的发布催生了一系列围绕幻觉检测与缓解的经典研究工作。在其启发下,研究者开发了基于注意力修正的幻觉抑制算法、利用外部知识图谱进行事实校验的方法,以及针对生成式图像场景的幻觉重采样技术。同时,HaloQuest 也被用作预训练数据的筛选标准,推动构建更具视觉忠实度的数据集。该基准还促进了跨模态一致性评估指标的设计,如将模型回答与图像细粒度特征进行对齐的评分方案,从而衍生出多个旨在降低视觉语言模型输出风险的改进模型,显著助推了可信多模态智能的发展。
数据集最近研究
最新研究方向
HaloQuest作为视觉语言模型中幻觉评估的前沿基准,正引领着多模态大模型可信度研究的新浪潮。该数据集通过精心设计的7,609个样本,涵盖真实与合成图像,并针对虚假前提、视觉挑战及上下文不足三类幻觉进行系统性评测。当前研究热点聚焦于利用该基准揭示模型在复杂视觉推理中的脆弱性,进而推动对抗性训练与因果推理机制的革新。其发布与谷歌等机构的合作,不仅为模型鲁棒性提供了量化标尺,更在AI安全与可靠部署等关键议题上树立了新标杆,深刻影响着未来多模态系统的伦理设计与实际应用边界。
以上内容由遇见数据集搜集并总结生成



