Shengcao1006/MMHal-Bench
收藏Hugging Face2023-11-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Shengcao1006/MMHal-Bench
下载链接
链接失效反馈官方服务:
资源简介:
MMHal-Bench是一个专门为大型多模态模型(LMM)中的幻觉问题设计的评估基准。它包含了96个基于OpenImages图像的挑战性问题及其对应的真实答案和图像内容。用户可以通过生成模型对图像-问题对的响应,并使用GPT-4自动评估这些响应。评估结果包括平均分数、幻觉率以及每种问题类型的平均分数。
MMHal-Bench is an evaluation benchmark specifically designed for addressing hallucination issues in large multimodal models (LMMs). It includes 96 challenging questions based on OpenImages images, along with their corresponding ground-truth answers and image content. Users can generate responses to image-question pairs using generative models, and automatically evaluate these responses with GPT-4. The evaluation results include average scores, hallucination rates, and average scores for each question type.
提供机构:
Shengcao1006
原始信息汇总
MMHal-Bench 数据集概述
数据集简介
MMHal-Bench 是一个专门为大型多模态模型中的幻觉现象设计的评估基准。
数据内容
- 包含 96 个基于 OpenImages 图像的挑战性问题。
- 每个问题都有相应的真实答案和图像内容。
搜集汇总
数据集介绍

构建方式
在大型多模态模型快速发展的背景下,MMHal-Bench基准的构建旨在系统评估模型幻觉现象。该数据集从OpenImages平台精选96张图像,并围绕每张图像设计具有挑战性的视觉问答对。构建过程中,研究者为每个问题提供了标准答案及详细的图像内容描述,确保评估的客观性与可重复性。数据集的构建严格遵循多模态评估的科学范式,通过精心设计的问答结构,深入挖掘模型在跨模态理解中可能产生的语义偏差。
特点
MMHal-Bench的核心特点在于其专注于大型多模态模型的幻觉检测,涵盖了多样化的视觉场景与复杂语义关系。数据集规模虽小,但每个样本均经过严格筛选,确保问题具有足够的挑战性,能够有效触发模型的潜在幻觉行为。此外,该基准提供了基于GPT-4的自动化评估框架,支持对模型回答进行量化评分,并计算幻觉率等关键指标。这种设计使得研究者能够系统分析模型在不同问题类型上的表现差异,为模型改进提供精确的诊断依据。
使用方法
使用MMHal-Bench进行评估时,研究者需首先利用自有模型生成对图像-问题对的回答,并按照指定格式保存结果。随后,通过调用OpenAI API运行内置的GPT-4评估脚本,对模型回答进行自动化评分。评估过程消耗约1.5k至2k令牌,最终输出平均分数、幻觉率及分问题类型的详细得分。该流程实现了评估的标准化与高效化,但需注意GPT-4响应的非确定性可能带来结果波动,建议在研究中考虑多次评估以获取稳定结论。
背景与挑战
背景概述
随着大语言模型向多模态领域扩展,大型多模态模型在图像理解与文本生成任务中展现出卓越潜力,然而其生成内容中普遍存在的幻觉问题成为制约模型可靠性的关键瓶颈。MMHal-Bench由研究团队于2023年提出,依托OpenImages图像库构建,旨在系统评估多模态模型在视觉问答任务中的幻觉现象。该数据集通过精心设计的96个挑战性问题,结合真实答案与图像内容标注,为量化模型幻觉提供了标准化测试平台,推动了多模态可信人工智能的发展。
当前挑战
MMHal-Bench致力于解决多模态模型在视觉问答任务中产生与图像内容不符的幻觉文本这一核心挑战,其构建需确保问题具有足够的复杂性与歧义性以触发模型潜在缺陷。数据集创建过程中,研究者面临如何从海量图像中筛选具有评估价值的样本、设计能够有效区分模型能力边界的问题框架、以及建立可靠的人工标注与自动化评估协议等多重困难。此外,依赖GPT-4进行自动化评估虽提升效率,但引入了API成本、输出不确定性以及评估标准对齐等新的技术挑战。
常用场景
经典使用场景
在大型多模态模型(LMM)的评估领域,MMHal-Bench作为专门针对幻觉现象设计的基准测试,其经典使用场景集中于对模型生成答案的准确性与可靠性进行系统性评测。该数据集通过96个基于OpenImages图像的挑战性问题,结合真实答案与图像内容,为研究者提供了一个标准化的评估框架,用以量化模型在视觉问答任务中产生幻觉的频率与程度,从而推动模型优化与比较研究。
衍生相关工作
围绕MMHal-Bench,学术界衍生了一系列经典研究工作,包括基于该基准的幻觉缓解算法开发、多模态评估指标的创新,以及针对特定任务(如视觉推理、图像描述)的扩展数据集构建。这些工作不仅深化了对多模态幻觉现象的理论探索,还促进了如LLaVA、BLIP等先进模型的迭代优化,形成了以幻觉检测与修正为核心的研究脉络。
数据集最近研究
最新研究方向
在大型多模态模型快速发展的背景下,MMHal-Bench作为专门评估幻觉现象的数据集,正推动该领域的前沿研究聚焦于多模态对齐与内容一致性验证。当前热点方向包括利用对抗性样本增强模型鲁棒性、开发无需依赖外部API的自动化评估框架,以及探索跨模态注意力机制以减少幻觉生成。这些研究不仅提升了模型在复杂视觉问答任务中的可靠性,也为医疗诊断、自动驾驶等高风险应用提供了关键的安全保障,具有重要的理论意义与实践价值。
以上内容由遇见数据集搜集并总结生成



