HumbleBench
收藏arXiv2025-09-12 更新2025-09-13 收录
下载链接:
https://github.com/maifoundations/HumbleBench
下载链接
链接失效反馈官方服务:
资源简介:
HumbleBench是一个大规模的幻觉基准,旨在评估多模态大型语言模型(MLLMs)的拒绝错误选项的能力,从而反映模型的认知谦逊。该数据集由全景场景图数据集构建,包含细粒度的场景图注释,从中提取了准确的实体和关系信息。通过GPT-4-Turbo生成自然语言问题和干扰项,并通过严格的手动过滤过程确保了问题的有效性。HumbleBench包含22831个多项选择题,是目前最大的幻觉基准数据集之一。数据集旨在解决多模态AI系统在处理视觉幻觉问题时的可靠性评估,以促进未来研究的发展。
HumbleBench is a large-scale hallucination benchmark designed to evaluate the ability of multimodal large language models (MLLMs) to reject incorrect options, thereby reflecting the cognitive humility of the models. This dataset is constructed based on panoramic scene graph datasets, which contain fine-grained scene graph annotations from which accurate entity and relational information is extracted. Natural language questions and distractors are generated via GPT-4-Turbo, and their validity is ensured through a strict manual filtering process. HumbleBench comprises 22,831 multiple-choice questions, making it one of the largest hallucination benchmark datasets to date. This dataset aims to address the reliability evaluation of multimodal AI systems when dealing with visual hallucinations, so as to promote the advancement of future research.
提供机构:
香港浸会大学
创建时间:
2025-09-12
原始信息汇总
HumbleBench 数据集概述
数据集简介
HumbleBench 是一个用于评估多模态大语言模型(MLLMs)认知谦逊性的基准测试数据集。该数据集专门针对模型在对象、关系和属性三种幻觉类型中拒绝看似合理但错误答案的能力进行测试。
核心特征
- 评估重点:测试模型识别"以上都不是"选项的能力,反映认知谦逊性
- 数据来源:基于全景场景图数据集构建,利用细粒度场景图注释提取真实实体和关系
- 问题生成:使用 GPT-4-Turbo 生成包含"none of the above"选项的多项选择题
- 幻觉类型:涵盖对象、属性和关系三种幻觉类型
数据集变体
- HumbleBench:标准版本
- HumbleBench-GN:包含噪声图像的版本
- HumbleBench-E:仅包含"none of the above"选项的版本
技术实现
- 编程语言:Python
- 安装方式:可通过 PyPI 安装(pip install HumbleBench)
- 接口支持:提供 Python API 和命令行界面两种使用方式
模型评估
支持评估多种最先进的多模态大语言模型,包括通用模型和专用推理模型。评估过程要求模型不仅识别正确的视觉信息,还要在没有任何有效答案时识别无效选项。
许可证
- 许可证类型:MIT 许可证
资源链接
- PyPI 页面:https://pypi.org/project/HumbleBench/
- HuggingFace 数据集:https://huggingface.co/datasets/maifoundations/HumbleBench
- GitHub 仓库:https://github.com/maifoundations/HumbleBench
联系方式
- 问题反馈:通过 GitHub Issues 或邮件联系(bingkuitong@gmail.com)
搜集汇总
数据集介绍

构建方式
HumbleBench的构建基于全景场景图数据集(PSG),该数据集提供像素级全景分割掩码和细粒度场景图标注。通过InstructBLIP模型提取目标属性信息,并利用GPT-4-Turbo生成包含干扰项的多选题,每个问题均设有“以上都不是”选项。生成过程后经过严格人工筛选,确保问题清晰、选项合理且答案准确,最终形成包含22,831个高质量问题的基准。
特点
该数据集专注于评估多模态大语言模型在对象、属性和关系三种幻觉类型上的认知谦逊能力,其核心特点在于每个多选题均包含“以上都不是”选项,要求模型在无法确定正确答案时主动拒绝错误选项。数据集规模庞大,问题类型分布均衡,干扰项设计高度逼真,有效模拟真实场景中的不确定性,为模型可靠性评估提供更全面的测试框架。
使用方法
使用者可通过加载图像和对应多选题输入待评估模型,模型需从五个选项中选择答案,其中E选项恒为“以上都不是”。评估时需统计模型在原始测试集(HumbleBench)、纯E选项测试(HumbleBench-E)和高斯噪声图像测试(HumbleBench-GN)上的准确率,以综合衡量模型拒绝错误选项的能力和视觉 grounding 鲁棒性。
背景与挑战
背景概述
HumbleBench由香港浸会大学与穆罕默德·本·扎耶德人工智能大学联合研发,于2025年正式发布,旨在解决多模态大语言模型中的认知谦逊评估问题。该数据集聚焦于模型在对象、属性和关系三类幻觉场景中拒绝错误选项的能力,其构建基于全景场景图数据集的高精度标注,通过GPT-4-Turbo生成问题并经过严格人工筛选,最终包含22,831道多选题。作为当前规模最大的幻觉评测基准,HumbleBench填补了传统基准仅关注识别精度而忽略不确定性认知的空白,为安全关键领域的模型可靠性评估提供了新范式。
当前挑战
HumbleBench核心挑战在于推动模型超越传统识别任务,要求其具备拒绝所有错误选项的认知谦逊能力。领域问题层面,需解决多模态场景中对象存在性误判、属性混淆及关系错位三类幻觉的精准辨识;构建过程中,需确保错误选项的合理性与迷惑性,避免生成荒谬干扰项,同时依赖人工验证消除自动化流程中的语义偏差与逻辑矛盾,保障问题与图像内容的严格对齐。
常用场景
经典使用场景
在多模态大语言模型评估领域,HumbleBench作为专门针对认知谦逊能力设计的基准测试工具,其经典应用场景体现在系统化检测模型对虚假选项的拒绝能力。该数据集通过包含'以上都不是'选项的多选题形式,要求模型在对象、属性和关系三类幻觉场景中,不仅需要识别正确视觉信息,更需在缺乏有效答案时主动放弃选择,这种设计完美模拟了现实应用中模型面临不确定性时的决策场景。
衍生相关工作
该数据集的发布催生了多模态认知谦逊研究的新方向,衍生出包括视觉对比解码、过信任惩罚机制和强化学习对齐等一系列创新工作。研究者们基于HumbleBench的评估框架,开发了OPERA等新型训练方法,通过 retrospection-allocation 机制有效缓解幻觉现象。同时推动了GLM-4.1V-Thinking等新一代推理模型的发展,这些模型采用思维范式强化学习显著提升了在不确定性场景中的表现。
数据集最近研究
最新研究方向
在多模态大语言模型(MLLMs)可靠性评估领域,HumbleBench通过引入认知谦逊(epistemic humility)概念,重新定义了幻觉检测的范式。该数据集创新性地采用包含“以上都不是”选项的多选题形式,要求模型在对象、属性和关系三类幻觉场景中识别错误选项并主动拒绝回答,填补了传统基准仅关注识别准确率的空白。其基于全景场景图的数据构建流程结合GPT-4-Turbo生成与人工校验,确保了22831条样本的精确性与挑战性。当前研究聚焦于探索模型不确定性建模、视觉-语言对齐优化以及抗干扰推理机制,尤其在医疗诊断、自动驾驶等安全关键场景中推动MLLMs从被动识别向主动认知决策的范式转变。
相关研究论文
- 1Measuring Epistemic Humility in Multimodal Large Language Models香港浸会大学 · 2025年
以上内容由遇见数据集搜集并总结生成



