OmniMedVQA - 大规模医学VQA评测数据集
收藏github2024-06-02 收录
下载链接:
https://github.com/OpenGVLab/Multi-Modality-Arena
下载链接
链接失效反馈官方服务:
资源简介:
OmniMedVQA数据集是由香港大学与上海人工智能实验室联合推出的一个专注于医疗领域的大型视觉问答(VQA)评测数据集。该数据集包含118,010种不同图片,拥有12种不同模态,涉及超过20个人体不同的器官、部位。OmniMedVQA以73个不同分类数据集为基础,拓展出了多种QA模版,基于这些QA对进行采样,得到了12,7995个不同的VQA条目。为了拓展OmniMedVQA数据集的多样性,研究人员通过GPT-4对QA模版进行复写。同时,为了便于评测,让GPT-4为每个条目配置错误答案,将其构造成选择题的形式,通过这种方式,在确保语义不变的前提下,使不同VQA条目的问答形式更多样。该数据集旨在为医学多模态大模型的发展提供评测基准。
The OmniMedVQA dataset is a large-scale visual question answering (VQA) evaluation dataset focused on the medical field, jointly developed by the University of Hong Kong and the Shanghai Artificial Intelligence Laboratory. This dataset comprises 118,010 different images across 12 modalities, covering over 20 different human organs and body parts. Based on 73 different classification datasets, OmniMedVQA has expanded into various QA templates, from which 127,995 distinct VQA entries were sampled. To enhance the diversity of the OmniMedVQA dataset, researchers utilized GPT-4 to rewrite the QA templates. Additionally, to facilitate evaluation, GPT-4 was employed to configure incorrect answers for each entry, structuring them in a multiple-choice format. This approach ensures semantic consistency while diversifying the question-answer formats across different VQA entries. The dataset aims to provide a benchmark for the development of multimodal large models in medicine.
提供机构:
香港大学、上海人工智能实验室
创建时间:
2024-03-31
原始信息汇总
数据集概述
OmniMedVQA
- 数据集内容: 包含118,010张图像,127,995个QA项,覆盖12种不同模态,涉及超过20个人体解剖区域。
- 数据集下载: 链接
- 模型数量: 包含8个通用领域LVLM和4个医学专业LVLM。
Tiny LVLM-eHub
- 数据集内容: 随机选择50个样本,总计2.1K样本,涉及42个文本相关的视觉基准。
- 模型数量: 总计12个模型,包括Google Bard。
- 评估方法: 采用ChatGPT Ensemble Evalution,相比之前的词匹配方法,与人类评估的协议有所改进。
LVLM-eHub
- 数据集内容: 评估8个公开的大型多模态模型(LVLM),涉及6类多模态能力,使用47个数据集和1个在线平台。
- 模型数量: 8个LVLM。
LVLM Leaderboard
- 评估能力: 包括视觉感知、视觉推理、视觉常识、视觉知识获取和对象幻觉。
- 模型排名: 包括InternVL、InternLM-XComposer-VL、Bard等模型。
- 数据集下载: 链接
更新信息
- 2024年3月31日: 发布OmniMedVQA,一个大规模的医学LVLM综合评估基准,包含8个通用领域LVLM和4个医学专业LVLM。
- 2023年10月16日: 从LVLM-eHub中提取的能力级数据集分割,并增加了8个最近发布的模型。
- 2023年8月8日: 发布Tiny LVLM-eHub,开源评估源代码和模型推理结果。
- 2023年6月15日: 发布LVLM-eHub,一个大型视觉语言模型的评估基准。
支持的多模态模型
- MiniGPT-4
- BLIP2
- InstructBLIP
- mPLUG-Owl
- Otter
- LLaVA
- llama_adapter_v2
- VPGTrans
搜集汇总
数据集介绍

构建方式
OmniMedVQA数据集的构建基于大规模的医学视觉问答任务,涵盖了118,010张图像和127,995个问答对。该数据集精心设计,覆盖了12种不同的模态,并涉及超过20个人体解剖区域。通过这种方式,OmniMedVQA旨在为医学领域的大规模多模态模型提供一个全面且细致的评估基准。
使用方法
使用OmniMedVQA数据集时,用户可以通过提供的下载链接获取数据集文件。数据集的使用通常涉及加载图像和问答对,并将其输入到视觉语言模型中进行训练或评估。用户可以根据需要选择特定的模型进行实验,并利用数据集中的多模态信息来优化模型的性能。此外,数据集还提供了详细的文档和示例代码,以帮助用户快速上手并进行有效的实验。
背景与挑战
背景概述
OmniMedVQA数据集是由OpenGVLab于2024年3月31日发布的一个大规模医学视觉问答(VQA)评测数据集。该数据集包含了118,010张图像和127,995个问答对,涵盖了12种不同的模态,并涉及超过20个人体解剖区域。OmniMedVQA的创建旨在为医学领域的多模态大模型提供一个全面的评估基准,其主要研究人员和机构包括OpenGVLab及其合作者。该数据集的发布不仅推动了医学图像分析和视觉问答技术的发展,还为相关领域的研究提供了宝贵的资源和参考。
当前挑战
OmniMedVQA数据集在构建过程中面临了多重挑战。首先,医学图像的复杂性和多样性使得数据标注和问答对的生成变得极为困难。其次,涵盖多种模态和解剖区域的数据集需要高度专业化的知识和技能,以确保数据的准确性和可靠性。此外,评估多模态大模型在医学领域的性能需要开发新的评测方法和工具,以应对不同模态和任务的复杂性。这些挑战不仅影响了数据集的构建,也对后续的研究和应用提出了更高的要求。
常用场景
经典使用场景
OmniMedVQA数据集在医学领域的大规模视觉问答任务中展现了其经典应用。该数据集包含118,010张图像和127,995个问答对,涵盖12种不同的医学模态和超过20个人体解剖区域。通过这一丰富的数据资源,研究人员能够训练和评估多模态模型在医学图像理解与解释中的表现,从而推动医学影像分析技术的发展。
解决学术问题
OmniMedVQA数据集解决了医学领域中多模态数据处理与分析的学术难题。其大规模、多模态的特性使得研究人员能够深入探索视觉与语言在医学场景中的交互机制,提升模型的泛化能力和解释性。此外,该数据集还促进了跨学科研究,如计算机视觉与医学影像学的结合,为医学诊断和治疗提供了新的技术支持。
实际应用
OmniMedVQA数据集在实际应用中具有广泛的前景。例如,在临床诊断中,医生可以通过与模型的交互,快速获取医学图像的详细信息,辅助诊断决策。在医学教育领域,该数据集可用于开发智能教学工具,帮助学生更好地理解复杂的医学图像。此外,OmniMedVQA还可应用于远程医疗和健康监测系统,提升医疗服务的效率和质量。
数据集最近研究
最新研究方向
在医学领域,OmniMedVQA数据集的最新研究方向主要集中在多模态大模型(LVLMs)的全面评估上。该数据集包含118,010张图像和127,995个问答项,涵盖12种不同的模态,并涉及超过20个人体解剖区域。研究者们通过对比8个通用领域和4个医学专用领域的LVLMs,探索其在医学视觉问答任务中的表现。此外,研究还涉及Tiny LVLM-eHub的早期多模态实验,特别是与Google Bard模型的结合,以及ChatGPT在评估中的应用,这些研究为医学领域的多模态模型评估提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



