HEALMedVQA

Name: HEALMedVQA
Creator: 澳大利亚阿德莱德大学澳大利亚机器学习研究所
Published: 2025-05-05 10:30:17
License: 暂无描述

arXiv2025-05-05 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.00744v2

下载链接

链接失效反馈

官方服务：

资源简介：

HEALMedVQA是一个包含67,000个视觉问答对的数据集，由医生标注的解剖分割掩码和两种新的评估协议组成。该数据集旨在评估大型语言模型的定位能力和幻觉鲁棒性。它包括闭式问题和开放式问题，用于测试模型在不同场景下的表现。HEALMedVQA数据集为评估当前多模态语言模型在医学视觉问答任务中的幻觉和准确性提供了新的基准。

HEALMedVQA is a dataset consisting of 67,000 visual question-answering pairs, physician-annotated anatomical segmentation masks, and two novel evaluation protocols. This dataset aims to evaluate the localization capability and hallucination robustness of large language models. It includes closed-ended and open-ended questions to test model performance across diverse scenarios. The HEALMedVQA dataset provides a new benchmark for assessing the hallucination and accuracy of current multimodal language models in medical visual question answering tasks.

提供机构：

澳大利亚阿德莱德大学澳大利亚机器学习研究所

创建时间：

2025-04-30

搜集汇总

数据集介绍

构建方式

HEALMedVQA数据集的构建基于两大放射学数据集MIMIC-CXR和VinDr-CXR，通过映射疾病与解剖位置的空间关系，生成67,000个视觉问答对。数据集包含医生标注的解剖分割掩码，用于评估多模态大模型在医学视觉问答中的定位能力和幻觉鲁棒性。构建过程涉及疾病边界框提取、解剖分割掩码获取以及疾病-解剖关系映射，最终通过问题模板生成多样化的问答对。

使用方法

该数据集主要用于评估医学多模态大模型的视觉定位能力和抗幻觉性能。研究人员可通过文本扰动测试（TPT）和视觉扰动测试（VPT）协议，系统评估模型对疾病-解剖位置关系的理解深度。数据集配套的代码库支持8种前沿模型的性能对比，Localize-before-Answer（LobA）框架可作为提升模型视觉推理能力的基准方法。使用时应遵循医学数据伦理规范，确保评估过程的严谨性。

背景与挑战

背景概述

HEALMedVQA（Hallucination Evaluation via Localization in Medical VQA）是由来自越南河内科技大学、澳大利亚阿德莱德大学机器学习研究所、格里菲斯大学、弗林德斯大学医学与公共卫生学院以及伍伦贡大学的研究团队共同开发的一个医学视觉问答（VQA）基准测试数据集。该数据集创建于2025年，旨在解决医学大型多模态模型（LMMs）在回答医学问题时产生的幻觉问题，即模型生成的答案与源证据不符的现象。HEALMedVQA包含67,000个视觉问答对，并附有医生标注的解剖分割掩码，用于评估模型在回答疾病相关查询时的定位能力和幻觉鲁棒性。该数据集的推出为医学多模态模型的可靠性和准确性评估提供了重要工具，推动了医学视觉问答领域的发展。

当前挑战

HEALMedVQA面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，医学视觉问答任务需要模型具备高度的准确性和可靠性，而现有的医学LMMs常常依赖语言模式或关注无关图像区域，导致生成的答案与视觉证据不符。此外，医学数据的敏感性和复杂性进一步增加了模型开发的难度。在构建过程中，挑战包括如何从大规模放射学数据集中提取疾病边界框和解剖掩码，以及如何准确映射疾病与解剖位置之间的空间关系。此外，数据标注需要专业医生的参与，增加了数据集构建的成本和复杂性。这些挑战需要通过创新的数据收集和标注方法，以及先进的模型训练技术来克服。

常用场景

经典使用场景

HEALMedVQA数据集在医学视觉问答（Med-VQA）领域具有重要应用价值，其经典使用场景包括评估多模态大模型（LMMs）在医学影像分析中的定位能力和幻觉鲁棒性。该数据集通过提供医生标注的解剖分割掩码，使研究人员能够深入分析模型在回答疾病相关问题时是否基于正确的病理区域进行推理，而非依赖语言模式或无关图像区域。

解决学术问题

HEALMedVQA解决了医学多模态大模型中的关键学术问题，即模型在生成答案时容易产生与源证据矛盾的幻觉。通过引入文本扰动测试（TPT）和视觉扰动测试（VPT），该数据集能够系统评估模型对文本和视觉捷径学习的敏感性。此外，数据集提供的67K问答对和医生标注的分割掩码为研究社区提供了标准化工具，用于评估和改进模型在医学视觉问答中的准确性和可靠性。

实际应用

在实际应用中，HEALMedVQA数据集可广泛应用于医学影像诊断辅助系统。通过Localize-before-Answer（LobA）框架，模型能够先定位目标病理区域，再生成基于视觉证据的答案，从而显著提升诊断的准确性和可信度。这一方法在临床环境中具有重要价值，能够帮助放射科医生更高效地分析胸部X光片，减少误诊和漏诊的风险。

数据集最近研究