five

MM-Hallu/FIHA

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/MM-Hallu/FIHA
下载链接
链接失效反馈
官方服务:
资源简介:
FIHA是一个细粒度幻觉评估基准数据集,包含24,799个问答对,覆盖MSCOCO(500张图像)和Foggy Cityscapes(150张图像)数据集。该数据集用于评估视觉问答任务中的幻觉现象,包含图像、图像名称、问题、短答案、详细答案、问题类型、评估维度、查询的根对象和图像来源等字段。

FIHA is a Fine-grained Hallucination Evaluation benchmark with 24,799 QA pairs across MSCOCO (500 images) and Foggy Cityscapes (150 images) datasets. It is designed for evaluating hallucination in visual question answering tasks, containing fields such as image, image name, question, short answer, long answer, question type, evaluation dimension, root object being queried, and image source.
提供机构:
MM-Hallu
搜集汇总
数据集介绍
main_image_url
构建方式
FIHA数据集专为细粒度幻觉评估而构建,其数据源自MSCOCO与Foggy Cityscapes两大视觉基准数据集,分别选取500幅和150幅代表性图像。基于这些图像,研究者精心设计了24,799个问答对,每个问答对包含图像、问题、简短答案、详细答案、评估维度及源图像信息等字段。数据集以Parquet格式存储,通过问题类型(如yes/no)和评估维度(如对象存在性、属性存在性等)对幻觉现象进行细致分类,旨在系统性地捕捉视觉语言模型可能产生的各类细微错误。
特点
FIHA的核心特点在于其细粒度与多维度评估能力。数据集涵盖对象存在性、属性存在性、空间关系等多个评估维度,能够精准定位模型在图像理解中的具体幻觉类型。同时,数据融合了清晰场景(MSCOCO)与雾化场景(Foggy Cityscapes),使评估兼具通用性与鲁棒性。每个问题均配备简短与详细两种答案形式,便于不同深度分析。此外,所有数据均经人工精心标注与验证,确保了高质量与可靠性。
使用方法
FIHA数据集易于集成至视觉问答或幻觉检测研究流程。用户可通过HuggingFace Datasets库加载默认配置,获取包含图像、问题、答案等字段的标准化数据。使用时,可将问答对作为输入,评估视觉语言模型输出与真实答案的偏差,尤其关注模型在细粒度维度上的幻觉表现。数据集支持按源(mscoco/foggy)或评估维度进行子集分析,便于开展针对性研究。其MIT许可协议进一步降低了学术与工业应用的门槛。
背景与挑战
背景概述
在视觉语言模型(VLM)高速演进的当下,幻觉问题——即模型生成与图像内容不符的描述——已成为制约其可靠性的核心瓶颈。FIHA(Fine-grained Hallucination Evaluation)数据集应运而生,由研究团队于近年创建,旨在系统性地评估VLM在细粒度层面上的幻觉表现。该数据集以MSCOCO和Foggy Cityscapes为图像基础,精心构建了24,799个问答对,覆盖对象存在性、属性准确性等多个评估维度。FIHA的出现填补了现有基准对真实场景中细微且多样化的幻觉现象关注不足的空白,为相关领域提供了精准的评测工具,推动了对VLM幻觉成因与抑制策略的深入理解,对多模态人工智能的鲁棒性研究产生了重要影响。
当前挑战
FIHA数据集主要应对两大方面的挑战。在领域问题层面,现有视觉问答基准多关注整体答案正确性,忽略了模型在对象、属性、数量等细粒度层面上产生错误判断的检测,而FIHA通过设计细粒度的评估维度(如对象存在性、属性一致性),精准量化这类局部幻觉,挑战了传统评测体系。在构建过程中,团队面临的关键挑战包括:如何在MSCOCO和Foggy Cityscapes等复杂且含噪声的原始图像中定义并生成准确的细粒度问答对,同时确保跨数据集(清晰与雾霾场景)的评估一致性;此外,还需设计分类科学、覆盖全面的评估维度体系,以全面捕捉VLM在不同语义层面的幻觉模式。
常用场景
经典使用场景
FIHA数据集专为细粒度幻觉评估而生,其核心应用在于系统性地检验视觉语言模型(VLM)在图像理解中是否生成与事实相悖的内容。通过覆盖物体存在性、属性真实性、空间关系及数量准确性等多维度评价,研究者可利用该基准精准定位模型在特定认知环节(如对象幻觉或属性幻觉)的薄弱之处,从而推动模型在复杂视觉场景下的认知可靠性研究。
实际应用
在实际应用中,FIHA可助力自动驾驶、医疗影像分析及安防监控等高风险领域,这些场景对模型输出精确性要求严苛。例如,自动驾驶车辆需准确判断“前方是否有人行横道”等存在性及属性问题,而FIHA提供的细粒度评估范式可直接迁移至这些垂直领域,用于筛选和优化无幻觉的可靠模型,从而提升系统决策的安全性与用户信任度。
衍生相关工作
FIHA的发布催生了系列后续探索,包括基于其标注范式改进的幻觉缓解策略研究,例如通过对抗训练或知识蒸馏降低特定幻觉类型;此外,还有工作在其基础上扩展至多语言或视频领域的幻觉评估;同时,该数据集也被用作检验新提出的去幻觉算法(如基于证据的推理模块)的基准,形成了从问题定义、评估到解决方案闭环的研究生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作