HALLUCINATION BENCHMARK IN MEDICAL VISUAL QUESTION ANSWERING

Name: HALLUCINATION BENCHMARK IN MEDICAL VISUAL QUESTION ANSWERING
Creator: 伦敦大学学院
Published: 2024-04-03 20:42:32
License: 暂无描述

arXiv2024-04-03 更新2024-06-21 收录

下载链接：

https://github.com/knowlab/halt-medvqa

下载链接

链接失效反馈

官方服务：

资源简介：

HALLUCINATION BENCHMARK IN MEDICAL VISUAL QUESTION ANSWERING是由伦敦大学学院创建的一个用于评估医学视觉问答模型幻觉现象的基准数据集。该数据集包含2359条数据，通过修改PMC-VQA、PathVQA和VQA-RAD三个公开数据集构建，涵盖了假问题、无答案选项和图像交换三种测试场景。数据集的创建旨在深入分析当前模型的局限性，并评估其在医学领域的应用效果，特别是减少幻觉现象，以提高临床决策支持的准确性。

The HALLUCINATION BENCHMARK IN MEDICAL VISUAL QUESTION ANSWERING is a benchmark dataset developed by University College London (UCL) for evaluating hallucination phenomena in medical visual question answering models. It is constructed by modifying three publicly available datasets: PMC-VQA, PathVQA, and VQA-RAD, and contains 2359 instances covering three test scenarios: fake questions, no answer options, and image swapping. The dataset is designed to conduct in-depth analysis of the limitations of current models, evaluate their performance in medical applications, and specifically mitigate hallucination phenomena to improve the accuracy of clinical decision support.

提供机构：

伦敦大学学院

创建时间：

2024-01-11

搜集汇总

数据集介绍

构建方式

在医学视觉问答领域，现有数据集多聚焦于常规问答任务，而对模型幻觉现象的评估尚存空白。该基准数据集通过巧妙改造三个公开医学VQA数据集——PMC-VQA、PathVQA与VQA-RAD，构建了系统化的幻觉测试场景。具体而言，研究者设计了三种评估情境：采用GPT-3.5-turbo生成或从Med-Halt提取的虚假问题，用于检验模型对无意义问题的识别能力；将多选题正确答案替换为“以上皆非”，以测试模型对无关信息的辨别力；通过精心选择无关医学图像进行替换，评估模型对图文内容失配的检测水平。这种结构化构建方式确保了评估的全面性与科学性。

特点

该数据集的核心特征在于其针对医学视觉问答中幻觉现象的系统化评估框架。其创新性体现在通过三种精心设计的测试场景——虚假问题、选项替换与图像置换，多维度揭示模型产生事实性错误回应的潜在风险。数据集不仅包含丰富的医学图像与问答对，更通过控制变量设计实现了对模型内在能力的精准测量。特别值得注意的是，该基准提供了详尽的提示策略消融分析，其中L+D0组合策略展现出最优的幻觉抑制效果，为后续研究提供了关键方法论参考。这种设计使得数据集既能评估模型性能，又能深入解析影响幻觉产生的机制因素。

使用方法

该数据集主要服务于医学视觉问答模型的幻觉评估与比较研究。使用者可遵循论文建立的评估协议，将待测模型在默认配置下（温度参数设为0，输出标记长度设为1）进行测试，以排除随机性干扰。评估过程需严格采用经消融研究验证的最佳提示策略L+D0，即结合字母选项直接回答与“不知则不答”的指令组合。研究者可通过分析模型在三种测试场景下的准确率与无关预测数量，系统评估其抗幻觉能力。该基准亦支持对不同模型架构、微调策略及提示工程效果的横向比较，为开发可靠医疗视觉助手提供实证依据。

背景与挑战

背景概述

在医疗人工智能领域，视觉问答技术作为辅助诊断工具展现出巨大潜力，然而模型在临床环境中产生的幻觉现象尚未得到系统评估。由伦敦大学学院研究人员于近期构建的医学视觉问答幻觉基准数据集，旨在填补这一空白。该数据集通过整合PMC-VQA、PathVQA和VQA-RAD等公开资源，构建了包含虚假问题、无关选项和图像置换三种场景的评估框架，为核心研究问题——即多模态医疗模型在对抗幻觉方面的可靠性——提供了首个系统性测试平台。其诞生标志着医疗AI可信性评估从单纯性能度量向安全性维度深化，为构建安全可靠的临床视觉助手奠定了关键基础。

当前挑战

该数据集致力于解决医疗视觉问答领域模型产生事实错误但语法连贯的幻觉风险，其核心挑战在于如何设计能够全面触发并量化模型幻觉行为的评估场景。构建过程中面临多重困难：首先需在保持医学专业性的前提下，生成具有语义迷惑性的虚假问题与干扰选项；其次，图像置换需确保替换图像与原始语境存在显著差异却又不失医学合理性；最后，评估框架需平衡不同医学影像模态与文本查询的多样性，同时避免引入数据集本身的偏见。这些挑战使得构建既能反映真实临床风险又具备可重复性的基准成为一项复杂任务。

常用场景

经典使用场景

在医学视觉问答领域，幻觉现象是评估模型可靠性的关键挑战。该数据集通过构建包含虚假问题、无关选项和图像置换三种场景的基准，系统性地测试了大型视觉语言模型在医疗环境中的幻觉倾向。其经典使用场景在于为研究人员提供了一个标准化评估框架，用以量化模型在应对不合理查询或信息不匹配时的表现，从而揭示模型在生成事实性响应方面的内在缺陷。

实际应用

在实际医疗场景中，该数据集可用于开发和优化临床视觉辅助系统。例如，在放射学或病理学诊断支持工具中，利用该基准测试模型对异常图像或误导性问题的响应能力，可降低误诊风险。它还能指导医院选择幻觉倾向较低的模型，如LLaVA-v1.5-13B，结合特定提示策略构建更安全的诊断助手，同时规避患者数据隐私问题。

衍生相关工作

该数据集衍生的经典工作包括对LLaVA系列模型的深入性能分析，以及提示策略的优化研究。例如，论文中发现的L+D0提示方法显著提升了模型抗幻觉能力，成为后续医疗视觉系统设计的重要参考。此外，该基准促进了跨模型比较研究，如对比通用模型与医学微调模型的幻觉差异，为领域自适应方法提供了新的改进方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集