RePOPE
收藏arXiv2025-04-22 更新2025-04-24 收录
下载链接:
https://github.com/YanNeu/RePOPE
下载链接
链接失效反馈官方服务:
资源简介:
RePOPE数据集是针对POPE基准中存在的标签错误进行重新标注的结果。POPE数据集是用于视觉语言模型中物体幻觉的标准基准,主要基于MSCOCO图像数据集。RePOPE数据集通过重新标注MSCOCO中的500张图像,对标签错误进行了纠正,并为每个图像创建了新的标签集。该数据集旨在评估标签质量对模型结果的影响,并提供了更准确的数据集,以供研究人员在视觉语言模型中评估物体幻觉的能力。
The RePOPE dataset is a re-annotated result targeting the label errors present in the POPE benchmark. The POPE dataset is a standard benchmark for object hallucination in vision-language models, primarily based on the MSCOCO image dataset. The RePOPE dataset corrects label errors by re-annotating 500 images from MSCOCO and creates a new label set for each image. This dataset aims to evaluate the impact of label quality on model results, and provides a more accurate dataset for researchers to assess the object hallucination capability of vision-language models.
提供机构:
图宾根大学图宾根人工智能中心
创建时间:
2025-04-22
搜集汇总
数据集介绍

构建方式
RePOPE数据集通过重新标注MSCOCO图像库中的500张图像构建而成,旨在修正原始POPE基准测试中的标注错误。标注过程中,两名标注员对每张图像中的对象进行严格判定,分为“可见”(Yes)、“不可见”(No)以及“模糊”(Ambiguous)三类,以确保标注的准确性和一致性。模糊案例被排除在基准测试之外,从而提升了数据集的可靠性。
特点
RePOPE数据集显著特点在于其标注的高精确度,尤其针对原始POPE中存在的标注错误进行了系统性修正。数据集中正例(Yes)的标注错误率从9.3%降至接近零,负例(No)的错误率亦大幅降低。此外,数据集通过排除模糊案例,有效减少了主观性带来的标注不一致问题,为评估视觉语言模型的物体幻觉提供了更可靠的基准。
使用方法
RePOPE数据集主要用于评估视觉语言模型(VLMs)在物体幻觉任务上的性能。研究人员可通过对比模型在原始POPE和RePOPE上的表现,分析标注错误对模型评估的影响。数据集提供了三种子集(随机、流行、对抗),支持多样化的测试场景。使用时应关注修正后的标签分布不平衡问题,并结合准确率、召回率等指标综合评估模型表现。
背景与挑战
背景概述
RePOPE数据集由Tübingen AI Center的Yannic Neuhaus和Matthias Hein于2025年提出,旨在评估MSCOCO数据集中的标注错误对POPE基准测试的影响。POPE基准测试是视觉大语言模型(VLMs)中用于检测物体幻觉的标准工具,广泛应用于研究社区。RePOPE通过重新标注POPE基准测试中的图像,揭示了标注错误在不同子集中的不平衡分布,并展示了这些错误对模型性能评估的显著影响。该数据集的发布为相关领域提供了更可靠的评估工具,强调了数据质量在基准测试中的重要性。
当前挑战
RePOPE数据集面临的挑战主要包括两个方面:一是解决领域问题的挑战,即如何准确评估视觉大语言模型中的物体幻觉现象,尤其是在标注错误存在的情况下;二是构建过程中的挑战,包括重新标注MSCOCO图像时遇到的视觉相似物体混淆、物体细微存在难以识别以及标注定义不一致等问题。这些挑战不仅影响了数据集的构建质量,也对模型性能评估的可靠性提出了更高要求。
常用场景
经典使用场景
在视觉大语言模型(VLMs)研究中,RePOPE数据集作为POPE基准的修正版本,主要用于评估模型对目标幻觉(object hallucination)的鲁棒性。通过重新标注MSCOCO图像中的对象存在性,该数据集提供了更准确的标签,使得研究者能够在更可靠的数据基础上测试模型是否错误地识别图像中不存在的对象。经典使用场景包括模型性能对比、误差分析以及模型优化策略的验证。
实际应用
在实际应用中,RePOPE数据集被广泛用于视觉大语言模型的开发和测试。例如,在OpenVLM Leaderboard中,研究者利用该数据集评估不同模型在目标幻觉任务上的性能差异。此外,该数据集还可用于指导模型优化,帮助开发者识别并修正模型在对象识别中的系统性错误。
衍生相关工作
RePOPE数据集的发布推动了多篇相关研究工作的开展。例如,InternVL2.5、LLaVANeXT等模型在其论文中均引用了该数据集作为评估基准。此外,类似的数据集如DASH-B也受到RePOPE的启发,进一步扩展了目标幻觉研究的深度和广度。
以上内容由遇见数据集搜集并总结生成



