HEAL-MedVQA

Name: HEAL-MedVQA
Creator: 澳大利亚阿德莱德大学机器学习研究所, 格里菲斯大学, 澳大利亚弗林德斯大学医学院和公共卫生学院, 澳大利亚卧龙岗大学
Published: 2025-04-30 15:57:51
License: 暂无描述

arXiv2025-04-30 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.00744v1

下载链接

链接失效反馈

官方服务：

资源简介：

HEAL-MedVQA是一个全面的基准数据集，用于评估医学大型多模态模型（LMMs）的定位能力和幻觉鲁棒性。该数据集包含67,000个问答对，以及医生标注的解剖分割掩码，旨在解决医学图像解释中LMMs存在的幻觉问题。数据集创建过程中，我们采用了两个创新评估协议来评估视觉和文本的快捷学习，并且数据来源于两个大型公共数据集MIMIC-CXR和VinDr-CXR。HEAL-MedVQA旨在解决医学图像解释中LMMs存在的幻觉问题，提高医学视觉问答的鲁棒性。该数据集在医学图像解释、医学视觉问答等领域具有广泛的应用前景。

HEAL-MedVQA is a comprehensive benchmark dataset for evaluating the localization capabilities and hallucination robustness of medical large multimodal models (LMMs). It contains 67,000 question-answer pairs, together with anatomically segmented masks annotated by physicians, aiming to address the hallucination issues of LMMs in medical image interpretation and improve the robustness of medical visual question answering. During the dataset creation process, we adopted two innovative evaluation protocols to assess visual and textual shortcut learning, and the data is sourced from two large public datasets: MIMIC-CXR and VinDr-CXR. This dataset has broad application prospects in fields including medical image interpretation and medical visual question answering.

提供机构：

澳大利亚阿德莱德大学机器学习研究所, 格里菲斯大学, 澳大利亚弗林德斯大学医学院和公共卫生学院, 澳大利亚卧龙岗大学

创建时间：

2025-04-30

搜集汇总

数据集介绍

构建方式

HEAL-MedVQA数据集的构建基于两个大规模放射学数据集MIMIC-CXR和VinDr-CXR，通过疾病边界框与解剖分割掩码的空间关系映射，生成67,000个视觉问答对。具体流程包括解剖结构分割、疾病提取、解剖-疾病关系映射以及问题-答案对生成。疾病边界框通过YOLOv5模型在VinDr-CXR数据集上训练获得，解剖分割掩码则由预训练模型生成并由放射科医生进行像素级标注。通过计算疾病边界框与解剖掩码的交并比（IoU），确定疾病与解剖结构的关系，并基于此生成封闭式和开放式问题。

特点

HEAL-MedVQA数据集的特点在于其专注于评估多模态大模型在医学视觉问答中的定位能力和幻觉鲁棒性。数据集包含两种创新的评估协议：文本扰动测试（TPT）和视觉扰动测试（VPT），用于检测模型对文本和视觉捷径学习的敏感性。此外，数据集提供了医生标注的解剖分割掩码，为模型提供了像素级的视觉证据。数据集的问答对涵盖了封闭式和开放式问题，旨在全面评估模型在医学图像理解中的准确性和可靠性。

使用方法

HEAL-MedVQA数据集的使用方法包括通过文本扰动测试和视觉扰动测试评估模型的幻觉鲁棒性。文本扰动测试通过替换问题中的关键实体（如解剖结构或疾病）来检测模型对语言偏见的敏感性。视觉扰动测试通过替换图像中的目标区域来评估模型对视觉证据的依赖程度。此外，数据集支持Localize-before-Answer（LobA）框架的训练和评估，该框架通过定位目标区域并自我提示以增强对病理区域的注意力，从而生成更可靠的答案。数据集的结构化代码库便于对先进的多模态大模型进行全面比较。

背景与挑战

背景概述

HEAL-MedVQA（Hallucination Evaluation via Localization in Medical Visual Question Answering）是由来自越南河内科技大学、澳大利亚阿德莱德大学机器学习研究所、格里菲斯大学、弗林德斯大学医学与公共卫生学院以及伍伦贡大学的研究团队于2025年4月提出的医学视觉问答基准数据集。该数据集旨在解决医学大型多模态模型（LMMs）在解释医学数据时产生的幻觉问题，特别是由于定位推理不足导致的错误回答。HEAL-MedVQA包含67,000个视觉问答对，并附有医生标注的解剖分割掩码，专注于评估模型在回答疾病相关查询时的定位能力和幻觉鲁棒性。该数据集的推出为医学视觉问答领域提供了新的评估标准，推动了多模态模型在医学图像分析中的可靠性和准确性研究。

当前挑战

HEAL-MedVQA面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，医学视觉问答任务需要模型具备精准的定位能力，以避免依赖语言模式或关注无关图像区域而产生幻觉回答。构建过程中的挑战包括：1) 数据标注的复杂性，需要专业医生对病理区域进行像素级标注；2) 疾病与解剖结构关系的映射，需通过检测模型和人工标注结合实现；3) 对抗性问题的设计，用于评估模型对文本和视觉快捷学习的鲁棒性。此外，数据集的规模和质量控制也是构建过程中的重要挑战，需确保67,000个问答对的准确性和多样性。

常用场景

经典使用场景

HEAL-MedVQA数据集在医学视觉问答（VQA）领域具有重要应用，特别是在评估大型多模态模型（LMMs）的定位能力和幻觉鲁棒性方面。该数据集通过提供医生标注的解剖分割掩码和67K个VQA对，使得研究人员能够深入分析模型在回答疾病相关查询时是否基于相关病理区域进行推理。经典使用场景包括测试模型在回答关于胸部X光片中的疾病问题时，是否能够准确识别和定位病理区域，而非依赖语言模式或无关图像区域。

实际应用

在实际应用中，HEAL-MedVQA数据集可用于开发和优化医学诊断辅助系统。例如，通过训练模型在回答医学问题时先定位目标区域，再生成基于视觉证据的答案，可以显著提高诊断的准确性和可信度。此外，该数据集还可用于评估和改进现有医学LMMs在临床环境中的表现，帮助医生更高效地解读医学影像，从而提升诊断和治疗过程的效率。

衍生相关工作

HEAL-MedVQA数据集衍生了一系列相关研究工作，特别是在医学视觉问答和幻觉抑制领域。例如，基于该数据集提出的Localize-before-Answer（LobA）框架，通过训练模型先定位目标区域再生成答案，显著提升了模型的性能。此外，该数据集还启发了其他研究团队开发新的评估协议和模型架构，以进一步解决医学LMMs中的幻觉问题。这些工作共同推动了医学多模态模型的发展和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集