GEMeX

Name: GEMeX
Creator: 香港理工大学
Published: 2024-11-25 15:36:46
License: 暂无描述

arXiv2024-11-25 更新2024-11-28 收录

下载链接：

https://www.med-vqa.com/GEMeX/

下载链接

链接失效反馈

官方服务：

资源简介：

GEMeX是一个大规模、可解释的医学视觉问答（VQA）基准数据集，专门用于胸部X光诊断。该数据集由香港理工大学等机构创建，包含151,025张放射图像和1,605,575个问题-答案对，涵盖开放式、封闭式、单选和多选四种问题类型。数据集通过与放射科医生合作，对Chest ImaGenome数据集进行精细处理，利用GPT-4o生成多样化的问题，并提供详细的视觉和文本解释。GEMeX旨在解决现有医学VQA数据集缺乏解释性和多样性问题，适用于医疗诊断、医学教育和临床决策支持等领域。

GEMeX is a large-scale, interpretable medical visual question answering (VQA) benchmark dataset specifically designed for chest X-ray diagnosis. Developed by institutions including The Hong Kong Polytechnic University, this dataset contains 151,025 radiological images and 1,605,575 question-answer pairs, covering four question types: open-ended, closed-ended, single-choice, and multiple-choice. Developed through fine-grained processing of the Chest ImaGenome dataset in collaboration with radiologists, this dataset leverages GPT-4o to generate diverse questions and provides detailed visual and textual explanations. GEMeX aims to address the lack of interpretability and diversity in existing medical VQA datasets, and is applicable to fields such as medical diagnosis, medical education, and clinical decision support.

提供机构：

香港理工大学

创建时间：

2024-11-25

搜集汇总

数据集介绍

构建方式

GEMeX数据集的构建基于Chest ImaGenome数据集，通过与放射科医生的合作，对解剖区域进行了系统性的重新定义和精确的视觉-文本对应映射，从而生成每个X光图像的准确区域定位报告。随后，利用GPT-4o生成基于这些定位报告的多样化问题，涵盖开放式、封闭式、单选和多选四种类型，每对问题-答案都附有详细的推理和相应的视觉区域注释。最终，数据集包含151,025张放射图像和1,605,575个问题。

特点

GEMeX数据集的主要特点在于其多模态的可解释性机制，提供详细的视觉和文本解释，增强答案的可理解性。此外，数据集包含四种不同类型的问题，更好地反映了临床需求的多样性。与其他医学VQA数据集相比，GEMeX是首个同时包含文本和视觉解释的大规模胸部X光VQA数据集，显著提升了数据集的实用性和复杂性。

使用方法

GEMeX数据集适用于训练和评估医学视觉问答（Med-VQA）系统。研究者可以使用该数据集进行模型微调，以提高模型在医学图像理解、生成和解释方面的能力。数据集的多样化问题类型和详细的解释机制使其成为开发和测试下一代医学大视觉语言模型的宝贵资源。通过访问www.med-vqa.com/GEMeX，研究者可以获取数据集并进行相关研究。

背景与挑战

背景概述

GEMeX，即Groundable and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis，是由香港理工大学、新加坡国立大学等多机构联合开发的大型医学视觉问答数据集。该数据集专注于胸部X光诊断，旨在通过整合计算机视觉与自然语言处理技术，自动回应临床对医学影像的询问。GEMeX的创建旨在解决现有医学VQA数据集的两个主要局限：缺乏视觉和文本解释，以及问题格式单一。通过引入多模态解释机制和四种不同类型的问题，GEMeX显著提升了答案的可理解性和临床需求的多样性。自2024年发布以来，GEMeX已成为推动医学VQA系统发展的重要资源，对提升AI辅助医疗的可靠性和用户友好性具有深远影响。

当前挑战

GEMeX在构建过程中面临多项挑战。首先，现有医学VQA数据集缺乏视觉和文本解释，这限制了患者和初级医生的理解需求。其次，问题格式单一，无法充分反映临床场景的多样性。为解决这些问题，GEMeX引入了多模态解释机制和多样化的问答类型，但这也增加了数据集的复杂性。在评估过程中，代表性的视觉语言模型在GEMeX上的表现不佳，突显了数据集的高难度。此外，尽管通过微调基线模型观察到显著性能提升，但模型在实际应用中的表现仍有待提高，表明GEMeX在推动医学VQA系统发展中仍面临诸多挑战。

常用场景

经典使用场景

GEMeX数据集在胸部X光诊断中的经典应用场景主要体现在其多模态解释机制和多样化的问答类型。通过提供详细的视觉和文本解释，GEMeX增强了答案的可理解性，适用于开放式、封闭式、单选和多选等多种问答形式，更好地反映了临床场景中的多样化需求。

衍生相关工作

GEMeX数据集的引入催生了一系列相关研究工作，特别是在医学视觉语言模型（LVLMs）的训练和评估方面。例如，基于GEMeX的训练策略显著提升了LVLMs在医学VQA任务中的表现，推动了多模态解释和临床相关性研究的发展。此外，GEMeX还促进了医学VQA数据集的标准化和评估方法的创新，为未来的研究奠定了基础。

数据集最近研究