MM-Hallu/RePOPE
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/MM-Hallu/RePOPE
下载链接
链接失效反馈官方服务:
资源简介:
RePOPE是一个重新标注的POPE基准数据集,用于评估对象幻觉。数据集包含8,185个关于MSCOCO图像中对象存在的yes/no问题。每个数据项包括MSCOCO图像、COCO图像标识符、关于对象存在的yes/no问题、ground truth(yes/no)和采样策略(random/popular/adversarial)。数据集的任务类别是视觉问答,语言为英语,标签包括幻觉检测、对象幻觉、pope和coco。数据集的大小在1K到10K之间。
Re-annotated POPE benchmark with corrected ground-truth labels for object hallucination evaluation. 8,185 yes/no questions about object existence in MSCOCO images. Each data item includes MSCOCO image, COCO image identifier, yes/no question about object presence, ground truth (yes/no), and sampling strategy (random/popular/adversarial). The task category is visual-question-answering, language is English, and tags include hallucination-detection, object-hallucination, pope, and coco. The size category is between 1K and 10K.
提供机构:
MM-Hallu
搜集汇总
数据集介绍

构建方式
RePOPE数据集源自对现有POPE基准的重新标注,旨在修正原始数据中关于物体幻觉评估的地面真值标签。其构建过程以MSCOCO图像为基础,通过提取图像标识符和物体存在性信息,生成一系列二元问答对。每个样本包含一幅图像、一个自然语言问题(询问特定物体是否出现在图中)、以及对应的肯定或否定答案。答案标注依据严谨的物体存在性判定,确保标签的可靠性。数据集共收录8,185个问题,按照采样策略划分为随机、流行和对抗三种类别,分别对应不同的物体选择逻辑,从而为多模态模型的幻觉检测提供平衡且具有挑战性的测试样本。
特点
RePOPE的核心特点在于其对地面真值标签的修正与精细化处理,显著提升了物体幻觉评估的准确性。该数据集聚焦于视觉问答任务中的幻觉检测,所有问题均以二元形式呈现,便于模型输出与标签的直接对比。三个采样类别(随机、流行、对抗)覆盖了从常见物体到罕见物体的不同场景,其中对抗类别侧重于模型易误判的物体,增强了评估的难度与针对性。数据集规模适中(1K至10K样本),兼顾了评估效率与统计显著性,且采用MIT许可证开放使用,支持研究者直接用于多模态大模型的幻觉基准测试。
使用方法
使用RePOPE数据集时,研究者可将图像与问题输入目标视觉语言模型,获取模型对物体存在性的判断(是/否),并与数据集中标注的地面真值答案进行比对。评估指标包括准确率、精确率、召回率及F1分数,特别关注模型在对抗样本上的表现以衡量其抗幻觉能力。数据集格式简洁,包含图像、问题、答案及类别字段,可通过HuggingFace Datasets库加载,利用Parquet文件高效读取。推荐将其作为多模态模型体检中的标准组件,用于横向对比不同架构下的幻觉率,或作为训练数据的一部分以增强模型的鲁棒性。
背景与挑战
背景概述
在视觉语言模型(VLM)的评估体系中,对象幻觉(object hallucination)问题长期困扰着模型的可信度与实用性。为系统性地检测这一缺陷,研究者从POPE基准出发,于2024年由YanNeu团队通过重新标注MSCOCO图像中的对象存在性问答对,构建了RePOPE数据集。该数据集包含8,185个是非问题,覆盖随机、流行和对抗三种采样策略,旨在提供比原始POPE更精准的真实标签,从而为对象幻觉检测提供更可靠的评估基准。RePOPE的发布推动了视觉语言模型在鲁棒性和真实性评估方面的标准化进程,对多模态人工智能系统的可信赖发展具有重要影响。
当前挑战
RePOPE所解决的领域挑战在于视觉语言模型常倾向于生成与图像内容不符的对象描述,即对象幻觉,这严重影响了模型在下游任务中的可靠性。此外,现有评估基准如POPE因标注不精确而难以真实反映模型表现。在构建过程中,挑战主要体现在对MSCOCO图像中对象存在性的重标注工作:需要克服原始标注中的歧义与错误,确保8,185个问答对的答案与图像内容严格一致,并精心设计三种采样策略以平衡样本分布,从而有效评估模型在不同难度条件下的幻觉倾向。
常用场景
经典使用场景
在视觉与语言交汇的璀璨星空中,多模态大模型的幻觉现象如同一片挥之不去的阴霾,严重阻碍了模型的可靠落地。RePOPE数据集犹如一把精准的手术刀,专为切中目标级幻觉(Object Hallucination)这一顽疾而设计。它通过对经典的POPE基准进行细致入微的重新标注,构建了涵盖8,185个是非问题的高质量评估集。研究者借助RePOPE,能够系统性地检验模型在MSCOCO图像中识别物体存在与否时的可靠性,从而为衡量多模态模型对视觉世界的忠实程度提供了一把标尺。
衍生相关工作
RePOPE的诞生催生了众多围绕多模态幻觉检测与修正的后续研究。一方面,它被用作标准测试床,验证了诸如细粒度视觉解码、对比学习去偏置等新范式在抑制幻觉方面的有效性。另一方面,其高质量的人工标注数据成为训练幻觉判别器的重要资源,衍生出能够对模型输出进行实时监控的后处理模块。这些工作共同勾勒出一条从精确评估到根本性修复的研究脉络,深刻影响着多模态领域的大模型安全与对齐研究走向。
数据集最近研究
最新研究方向
RePOPE数据集聚焦于多模态大模型中的物体幻觉检测与评估,通过重新标注POPO基准中的真实标签,纠正了原有标注的偏差,为物体存在性判断的问答任务提供了更可靠的验证标准。当前前沿方向包括利用该数据集探究视觉语言模型在对抗性采样、高频共现对象以及随机场景下的推理鲁棒性,结合MSCOCO图像推动更细粒度的幻觉量化分析。该数据集在打击AI生成内容中的虚假感知、提升多模态系统的可信度方面具有深远影响,成为检验模型事实性与视觉逻辑一致性的关键利器。
以上内容由遇见数据集搜集并总结生成



