FGHE
收藏Hugging Face2026-04-26 更新2026-04-27 收录
下载链接:
https://huggingface.co/datasets/MM-Hallu/FGHE
下载链接
链接失效反馈官方服务:
资源简介:
FGHE(细粒度幻觉评估)是一个用于多模态幻觉评估的数据集。该数据集包含图像和文本数据,主要字段包括:图像数据(image)、图像名称(image_name)、问题序列(questions)、标签序列(labels)和问题ID序列(question_ids)。数据集提供两种分割配置:测试集(test)和热门集(popular),数据以parquet格式存储。该数据集专门设计用于对多模态系统中的幻觉现象进行细粒度评估。
创建时间:
2026-04-23
原始信息汇总
根据您提供的数据集详情页面信息,以下是对数据集 FGHE 的总结:
数据集概述
FGHE(Fine-Grained Hallucination Evaluation)是一个用于多模态幻觉评估的数据集。
数据集配置与数据划分
该数据集包含以下配置和划分:
| 配置名称 | 数据划分 | 文件路径 |
|---|---|---|
| default | test | test.parquet |
| default | popular | popular.parquet |
特征结构
数据集包含以下特征字段:
- image:图像数据(图像类型)
- image_name:图像名称(字符串类型)
- questions:问题列表(字符串序列)
- labels:标签列表(字符串序列)
- question_ids:问题ID列表(整数序列)
搜集汇总
数据集介绍

构建方式
FGHE(Fine-Grained Hallucination Evaluation)数据集专为多模态幻觉评估而设计,其构建核心在于对视觉语言模型中生成内容与图像事实之间的偏差进行细粒度捕捉。数据集以图像为核心单元,每张图像关联一组由人工标注的问答对,其中questions字段存储自然语言问题序列,labels字段则预定义每个问题对应的真实标签,question_ids提供唯一标识以便溯源。数据采用高效的Parquet格式存储,划分为test和popular两个子集,分别服务于标准测试与流行场景下的性能评估。这种结构化的多字段设计确保了从输入到输出的完整推理链路可追溯,为模型幻觉行为提供量化分析基础。
特点
FGHE数据集的显著特点在于其对幻觉评估的细粒度聚焦与多维度标注体系。每个图像样本内嵌多个问题-标签对,能够从不同角度触发模型产生与图像内容相悖的生成结果,从而精确捕捉幻觉发生的具体类型与程度。数据集采用独立的image_name字段锁定图像身份,避免混淆;questions与labels的sequence结构支持可变长度的评估任务,适应多样化幻觉场景。popular子集进一步聚焦高频或代表性案例,强化评估的现实针对性。整体而言,该数据集在评估粒度与实用覆盖率之间取得了巧妙平衡。
使用方法
使用FGHE数据集时,研究人员可基于HuggingFace Datasets库直接加载default配置,通过split参数指定test或popular子集。加载后的样本包含image字段(PIL图像对象)、image_name、questions(字符串列表)、labels(字符串列表)及question_ids(整数列表)。典型评估流程为:对每张图像的每个问题,驱动视觉语言模型生成回答,并将其与labels中的标准答案逐一对比,计算幻觉指标如准确率、召回率或细粒度偏离度。由于labels未限定具体任务形式,用户亦可根据需要将其扩展到多选题或开放式问答的幻觉检测研究中。
背景与挑战
背景概述
FGHE(Fine-Grained Hallucination Evaluation)数据集由多模态幻觉评估领域的研究团队创建,旨在系统性地评估视觉语言模型在细粒度层面上的幻觉现象。随着多模态大模型的快速发展,模型在生成文本时可能产生与视觉输入不符的错误信息,即“幻觉”。FGHE通过精心设计的问答题对,聚焦于物体属性、空间关系、计数等微观层面的幻觉检测,为衡量模型感知准确性提供了严谨的基准。该数据集的影响力在于它弥补了传统评估仅关注整体语义一致性的不足,推动了多模态模型鲁棒性研究向更精细化的方向发展。
当前挑战
FGHE所解决的领域核心挑战在于多模态模型常出现与图像局部细节矛盾的生成内容,例如错误识别物体颜色或数量。这类错觉不仅影响用户信任,也制约了模型在具身智能、医疗影像等高风险场景的部署。在构建过程中,数据集的挑战体现在:如何定义并穷举细粒度幻觉的典型类别(如属性、空间、计数等),以及如何确保标注问题既能覆盖易错场景又能维持客观性。此外,数据的平衡性也面临考验——需避免因样本分布偏斜导致评估结果失真,同时保证不同难度层次的样本兼有,以全面反映模型能力边界。
常用场景
经典使用场景
FGHE(细粒度幻觉评估)数据集专为多模态大语言模型中的幻觉现象评估而设计,其经典使用场景在于系统性检测模型对图像内容的理解是否忠实于视觉事实。通过精心构造的细粒度问题——涵盖物体存在性、属性、空间关系、动作分类等微观层面——研究人员能够精确定位模型在哪些具体维度上产生虚假或错位的描述。这一评估范式突破了传统整体性评价的局限,使得研究者可以像用显微镜观察病理切片一样,剖析模型内部推理的偏差来源,为后续的幻觉抑制策略提供数据驱动的基石。
解决学术问题
该数据集直击多模态领域长期悬而未决的核心学术问题:如何客观、可重复地量化模型生成的与视觉输入不符的“幻觉”内容。FGHE通过细粒度标签体系,将幻觉现象拆解为可追溯的原子化错误类型,从而解决了以往评估中因标准宽泛导致的误判或遗漏。其意义在于为多模态幻觉研究建立了统一的基准测试框架,使得不同模型之间的性能对比具备科学公平性;同时,它推动学界从“感知幻觉是否存在”转向“具体在何处及为何产生幻觉”,深刻影响了模型鲁棒性分析、注意力机制优化以及训练数据质量改进等研究方向。
衍生相关工作
FGHE的问世催生了多条重要的衍生研究脉络。一方面,研究者基于该数据集的细粒度错误标签,设计了诸如对抗性幻觉攻击样本生成、基于梯度归因的幻觉溯源算法等工作,深入探索幻觉的触发机制。另一方面,FGHE的评估框架被扩展至视频理解、音频-视觉跨模态等更复杂场景,衍生出如VideoFGHE、AudioFGHE等变体。同时,多个多模态模型的性能提升直接引用FGHE作为验证集,包括通过对比学习强化视觉编码、引入外部知识库修正生成路径等方法,这些工作共同构建起围绕幻觉评估与矫正的完整学术生态。
以上内容由遇见数据集搜集并总结生成



