MedHEval

Name: MedHEval
Creator: 宾夕法尼亚州立大学，GE Healthcare
Published: 2025-03-04 08:40:09
License: 暂无描述

arXiv2025-03-04 更新2025-03-06 收录

下载链接：

https://github.com/Aofei-Chang/MedHEval

下载链接

链接失效反馈

官方服务：

资源简介：

MedHEval是一个针对医疗大型视觉语言模型中幻觉现象和缓解策略进行评估的综合基准。该数据集由宾夕法尼亚州立大学和GE Healthcare共同创建，包含15976个精心设计的医疗视觉问答对，覆盖了多种医疗任务，用于评估由视觉误解、知识缺陷和上下文错位引起的幻觉。数据集来源于多个知名医疗数据集，包括SLAKE、VQA-RAD、IU-Xray、MIMICCXR和MIMIC-IV等。

MedHEval is a comprehensive benchmark for evaluating hallucination phenomena and mitigation strategies in medical large vision-language models. Co-developed by Pennsylvania State University and GE Healthcare, this dataset includes 15,976 meticulously crafted medical visual question-answer pairs spanning diverse medical tasks. It is designed to assess hallucinations arising from visual misperception, knowledge deficits, and contextual misalignment. The dataset is sourced from several well-known medical datasets, including SLAKE, VQA-RAD, IU-Xray, MIMICCXR, MIMIC-IV, and other related collections.

提供机构：

宾夕法尼亚州立大学，GE Healthcare

创建时间：

2025-03-04

搜集汇总

数据集介绍

构建方式

MedHEval数据集的构建旨在解决医疗领域大型视觉语言模型（Med-LVLMs）中出现的幻觉问题。为了系统地评估幻觉和缓解策略，MedHEval将幻觉分为三种根本原因：视觉误解、知识不足和上下文错位。通过从SLAKE、VQA-RAD、IU-Xray、MIMICCXR和MIMIC-IV等现有医疗数据集中提取信息，构建了一个包含15,976个精心设计的VQA对的多样化数据集，涵盖了各种医疗任务。

特点

MedHEval数据集的特点在于其系统性和综合性。它不仅关注视觉误解幻觉，还考虑了知识不足和上下文错位幻觉，为Med-LVLMs的评估提供了更全面的视角。此外，MedHEval是第一个系统地评估幻觉缓解策略的数据集，应用了包括VCD、OPERA、DoLa、AVISC、M3ID、DAMRO和PAI在内的七种缓解方法。

使用方法

使用MedHEval数据集的方法包括对Med-LVLMs进行评估，以及对缓解策略进行评估。评估过程中，模型需要在各种医疗图像上进行视觉理解、知识应用和上下文推理。同时，通过对比原始模型和经过缓解策略处理后的模型性能，可以评估缓解策略的有效性。MedHEval数据集的代码和数据可以在https://github.com/Aofei-Chang/MedHEval获取。

背景与挑战

背景概述

MedHEval 数据集是在医学领域日益重视大型视觉语言模型（LVLM）的背景下创建的。由于医学应用的专业性和复杂性，这些模型在生成内容时经常出现幻觉现象。现有的基准测试未能有效评估幻觉的潜在原因，也缺乏对缓解策略的评估。为了填补这一空白，MedHEval 被引入，它通过将幻觉分为视觉误解释、知识缺乏和上下文错位三种潜在原因，系统地评估了 Med-LVLMs 中的幻觉和缓解策略。该数据集由来自 SLAKE、VQA-RAD、IU-Xray、MIMICCXR 和 MIMIC-IV 等一系列医学数据集的 15,976 个精心设计的封闭式和开放式视觉问答（VQA）对组成，涵盖了广泛的医学任务。MedHEval 建立了一个标准化框架，用于评估和缓解医学幻觉，并指导开发更可靠的 Med-LVLMs。

当前挑战

MedHEval 数据集面临的挑战包括：（1）现有 Med-LVLMs 在解释各种类型的放射学图像方面存在严重错误；（2）虽然现有的缓解方法提供了一些改进，但它们的有效性在不同任务中有所不同，这表明需要专门的策略；（3）Med-LVLMs 在将患者特定的和临床上下文纳入图像解释方面存在重大挑战，这通常会导致临床不恰当的输出；（4）现有的缓解方法在很大程度上未能解决这些幻觉，一些方法甚至导致某些 Med-LVLMs 的性能下降。这些发现突出了改进对齐训练和开发特定缓解策略以增强 Med-LVLMs 可靠性的必要性。

常用场景

经典使用场景

MedHEval数据集主要用于评估和缓解医学大型视觉语言模型（Med-LVLMs）中的幻觉问题。这些模型在医疗领域越来越重要，但由于专业知识和医疗应用的复杂性有限，它们经常会生成幻觉。MedHEval通过将幻觉分为三种根本原因（视觉误解、知识不足和上下文错位）来系统地评估幻觉和缓解策略。该数据集包括一组多样化和开放式的医学视觉问答（VQA）数据集，并使用全面的评估指标来评估这些幻觉类型。

衍生相关工作

MedHEval数据集衍生了一系列相关的经典工作，包括针对视觉误解、知识不足和上下文错位幻觉的缓解策略。这些策略包括增强视觉对齐、减少视觉偏差、改进知识整合和上下文推理。此外，MedHEval还促进了Med-LVLMs在医疗领域的应用，并推动了相关技术的发展。该数据集还为未来研究提供了有价值的资源，以进一步探索和改进医学视觉语言模型。

数据集最近研究