OmniMedVQA

Name: OmniMedVQA
Creator: 上海人工智能实验室
Published: 2024-04-21 17:51:58
License: 暂无描述

arXiv2024-04-21 更新2024-06-21 收录

下载链接：

https://github.com/OpenGVLab/Multi-Modality-Arena

下载链接

链接失效反馈

官方服务：

资源简介：

OmniMedVQA是一个专为医学领域设计的大型全面评估基准，包含12种不同模态和超过20个独特的人体解剖区域。该数据集由上海人工智能实验室创建，旨在解决现有医学图像数据集的多样性和覆盖范围不足的问题。OmniMedVQA包含118,010张真实医疗场景中的图像，确保与医学领域的要求和评估大型视觉语言模型（LVLMs）的适用性相符。数据集的创建过程涉及收集多个医学分类数据集，并利用强大的上下文推理能力将这些数据转换为视觉问答（VQA）格式。OmniMedVQA的应用领域广泛，旨在全面评估LVLMs在医学挑战中的基本能力，推动医学领域LVLMs的发展和应用。

OmniMedVQA is a large-scale comprehensive evaluation benchmark specifically designed for the medical domain, covering 12 distinct modalities and over 20 unique human anatomical regions. Developed by the Shanghai AI Laboratory, this dataset aims to address the shortcomings of existing medical image datasets in terms of diversity and coverage. OmniMedVQA contains 118,010 images from real medical scenarios, ensuring alignment with the requirements of the medical field and the suitability for evaluating Large Vision-Language Models (LVLMs). The dataset construction process involves collecting multiple medical classification datasets, and leveraging robust contextual reasoning capabilities to convert these data into Visual Question Answering (VQA) format. OmniMedVQA has a wide range of application scenarios, aiming to comprehensively evaluate the basic capabilities of LVLMs when facing medical challenges, and promote the development and application of LVLMs in the medical domain.

提供机构：

上海人工智能实验室

创建时间：

2024-02-14

搜集汇总

数据集介绍

构建方式

OmniMedVQA数据集的构建基于73个不同的医学数据集，涵盖12种不同的成像模态和超过20个解剖区域。所有图像均来源于真实的医疗场景，确保了数据集与医疗领域需求的紧密契合。构建过程中，首先收集了大量的医学分类数据集，然后利用GPT的强大上下文推理能力，将这些数据转换为视觉问答（VQA）格式。此外，为了增加数据集的多样性和评估能力，还通过ChatGPT-3.5 API对问题进行了重新表述，并生成了错误选项，从而构建了多选题问答对。

特点

OmniMedVQA数据集的主要特点包括：1）涵盖了12种不同的成像模态，如MRI、CT、X光等，确保了数据集的高度多样性；2）所有图像均来源于真实的医疗场景，与实际应用紧密相关；3）覆盖了超过20个不同的解剖区域，从大脑到四肢，为评估不同的大型视觉语言模型（LVLMs）提供了全面的基础；4）通过生成错误选项，将数据集转换为多选题问答对，便于评估模型的响应准确性。

使用方法

OmniMedVQA数据集可用于评估和训练大型视觉语言模型（LVLMs）在医疗领域的应用。使用者可以通过提供的图像和问答对进行模型的训练和验证，评估模型在不同成像模态和解剖区域上的表现。此外，数据集的多选题格式便于进行模型的准确性评估，通过计算问答得分和基于前缀的得分，可以全面评估模型的内在知识和避免幻觉生成的能力。

背景与挑战

背景概述

OmniMedVQA数据集由香港大学和上海人工智能实验室的研究团队于2024年推出，旨在评估大型视觉-语言模型（LVLMs）在医疗领域的潜力。该数据集整合了73个不同的医疗数据集，涵盖12种成像模态和超过20个解剖区域，确保了数据的真实性和多样性。OmniMedVQA的核心研究问题在于解决现有LVLMs在处理复杂医疗图像和多模态数据时的不足，特别是在视觉问答（VQA）任务中的表现。该数据集的推出对推动医疗领域的人工智能应用具有重要意义，为研究人员提供了一个全面的评估基准。

当前挑战

OmniMedVQA数据集面临的挑战主要体现在两个方面。首先，解决领域问题的挑战在于如何使LVLMs在医疗图像分类和问答任务中达到高准确性和鲁棒性，尤其是在处理多模态和多解剖区域的复杂数据时。其次，构建过程中的挑战包括数据集的多样性和真实性保证，以及如何有效地将大量医疗分类数据转换为VQA格式。此外，评估现有LVLMs在医疗专用模型和通用模型之间的性能差异，以及如何提升医疗专用模型的表现，也是该数据集需要解决的重要问题。

常用场景

经典使用场景

OmniMedVQA 数据集在医学领域的大规模视觉问答（VQA）任务中展现了其经典应用场景。该数据集通过整合来自 73 个不同医学数据集的图像，涵盖 12 种成像模态和 20 多个解剖区域，为评估大型视觉语言模型（LVLMs）在医学图像理解中的表现提供了全面的基准。其经典应用包括但不限于医学图像的自动诊断、疾病分类、解剖结构识别以及病理特征的定量分析，这些任务对于提升医疗诊断的准确性和效率具有重要意义。

解决学术问题

OmniMedVQA 数据集解决了医学领域中视觉语言模型评估的学术难题。传统医学 VQA 数据集的局限性在于数据量小、模态单一和解剖区域覆盖不全，这限制了模型在实际应用中的泛化能力和鲁棒性。OmniMedVQA 通过提供大规模、多模态和多解剖区域的图像数据，填补了这一空白，使得研究人员能够更全面地评估和改进视觉语言模型在医学图像理解中的性能，推动了该领域的技术进步。

衍生相关工作

OmniMedVQA 数据集的发布催生了一系列相关研究工作，推动了医学视觉语言模型的发展。例如，基于该数据集的研究论文探讨了如何优化模型以提高其在多模态医学图像上的表现，以及如何通过引入更多的医学知识来增强模型的诊断能力。此外，还有研究致力于开发新的评估指标和方法，以更准确地衡量模型在实际医学应用中的性能。这些工作不仅提升了模型的技术水平，也为未来的医学AI应用奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集