OmniMedVQA - 大规模医学VQA评测数据集|医学VQA数据集|多模态评测数据集

github2024-06-02 收录

医学VQA

多模态评测

下载链接：

https://github.com/OpenGVLab/Multi-Modality-Arena

下载链接

链接失效反馈

资源简介：

OmniMedVQA数据集是由香港大学与上海人工智能实验室联合推出的一个专注于医疗领域的大型视觉问答(VQA)评测数据集。该数据集包含118,010种不同图片，拥有12种不同模态，涉及超过20个人体不同的器官、部位。OmniMedVQA以73个不同分类数据集为基础，拓展出了多种QA模版，基于这些QA对进行采样，得到了12,7995个不同的VQA条目。为了拓展OmniMedVQA数据集的多样性，研究人员通过GPT-4对QA模版进行复写。同时，为了便于评测，让GPT-4为每个条目配置错误答案，将其构造成选择题的形式，通过这种方式，在确保语义不变的前提下，使不同VQA条目的问答形式更多样。该数据集旨在为医学多模态大模型的发展提供评测基准。

The OmniMedVQA dataset is a large-scale visual question answering (VQA) evaluation dataset focused on the medical field, jointly developed by the University of Hong Kong and the Shanghai Artificial Intelligence Laboratory. This dataset comprises 118,010 different images across 12 modalities, covering over 20 different human organs and body parts. Based on 73 different classification datasets, OmniMedVQA has expanded into various QA templates, from which 127,995 distinct VQA entries were sampled. To enhance the diversity of the OmniMedVQA dataset, researchers utilized GPT-4 to rewrite the QA templates. Additionally, to facilitate evaluation, GPT-4 was employed to configure incorrect answers for each entry, structuring them in a multiple-choice format. This approach ensures semantic consistency while diversifying the question-answer formats across different VQA entries. The dataset aims to provide a benchmark for the development of multimodal large models in medicine.

提供机构：

香港大学、上海人工智能实验室

创建时间：

2024-03-31

原始信息汇总

数据集概述

OmniMedVQA

数据集内容: 包含118,010张图像，127,995个QA项，覆盖12种不同模态，涉及超过20个人体解剖区域。
数据集下载: 链接
模型数量: 包含8个通用领域LVLM和4个医学专业LVLM。

Tiny LVLM-eHub

数据集内容: 随机选择50个样本，总计2.1K样本，涉及42个文本相关的视觉基准。
模型数量: 总计12个模型，包括Google Bard。
评估方法: 采用ChatGPT Ensemble Evalution，相比之前的词匹配方法，与人类评估的协议有所改进。

LVLM-eHub

数据集内容: 评估8个公开的大型多模态模型（LVLM），涉及6类多模态能力，使用47个数据集和1个在线平台。
模型数量: 8个LVLM。

LVLM Leaderboard

评估能力: 包括视觉感知、视觉推理、视觉常识、视觉知识获取和对象幻觉。
模型排名: 包括InternVL、InternLM-XComposer-VL、Bard等模型。
数据集下载: 链接

更新信息

2024年3月31日: 发布OmniMedVQA，一个大规模的医学LVLM综合评估基准，包含8个通用领域LVLM和4个医学专业LVLM。
2023年10月16日: 从LVLM-eHub中提取的能力级数据集分割，并增加了8个最近发布的模型。
2023年8月8日: 发布Tiny LVLM-eHub，开源评估源代码和模型推理结果。
2023年6月15日: 发布LVLM-eHub，一个大型视觉语言模型的评估基准。

支持的多模态模型

MiniGPT-4
BLIP2
InstructBLIP
mPLUG-Owl
Otter
LLaVA
llama_adapter_v2
VPGTrans

AI搜集汇总

数据集介绍

构建方式

OmniMedVQA数据集的构建基于大规模的医学视觉问答任务，涵盖了118,010张图像和127,995个问答对。该数据集精心设计，覆盖了12种不同的模态，并涉及超过20个人体解剖区域。通过这种方式，OmniMedVQA旨在为医学领域的大规模多模态模型提供一个全面且细致的评估基准。

使用方法

使用OmniMedVQA数据集时，用户可以通过提供的下载链接获取数据集文件。数据集的使用通常涉及加载图像和问答对，并将其输入到视觉语言模型中进行训练或评估。用户可以根据需要选择特定的模型进行实验，并利用数据集中的多模态信息来优化模型的性能。此外，数据集还提供了详细的文档和示例代码，以帮助用户快速上手并进行有效的实验。

背景与挑战

背景概述

OmniMedVQA数据集是由OpenGVLab于2024年3月31日发布的一个大规模医学视觉问答（VQA）评测数据集。该数据集包含了118,010张图像和127,995个问答对，涵盖了12种不同的模态，并涉及超过20个人体解剖区域。OmniMedVQA的创建旨在为医学领域的多模态大模型提供一个全面的评估基准，其主要研究人员和机构包括OpenGVLab及其合作者。该数据集的发布不仅推动了医学图像分析和视觉问答技术的发展，还为相关领域的研究提供了宝贵的资源和参考。

当前挑战

OmniMedVQA数据集在构建过程中面临了多重挑战。首先，医学图像的复杂性和多样性使得数据标注和问答对的生成变得极为困难。其次，涵盖多种模态和解剖区域的数据集需要高度专业化的知识和技能，以确保数据的准确性和可靠性。此外，评估多模态大模型在医学领域的性能需要开发新的评测方法和工具，以应对不同模态和任务的复杂性。这些挑战不仅影响了数据集的构建，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

OmniMedVQA数据集在医学领域的大规模视觉问答任务中展现了其经典应用。该数据集包含118,010张图像和127,995个问答对，涵盖12种不同的医学模态和超过20个人体解剖区域。通过这一丰富的数据资源，研究人员能够训练和评估多模态模型在医学图像理解与解释中的表现，从而推动医学影像分析技术的发展。

解决学术问题

OmniMedVQA数据集解决了医学领域中多模态数据处理与分析的学术难题。其大规模、多模态的特性使得研究人员能够深入探索视觉与语言在医学场景中的交互机制，提升模型的泛化能力和解释性。此外，该数据集还促进了跨学科研究，如计算机视觉与医学影像学的结合，为医学诊断和治疗提供了新的技术支持。

实际应用

OmniMedVQA数据集在实际应用中具有广泛的前景。例如，在临床诊断中，医生可以通过与模型的交互，快速获取医学图像的详细信息，辅助诊断决策。在医学教育领域，该数据集可用于开发智能教学工具，帮助学生更好地理解复杂的医学图像。此外，OmniMedVQA还可应用于远程医疗和健康监测系统，提升医疗服务的效率和质量。

数据集最近研究

最新研究方向

在医学领域，OmniMedVQA数据集的最新研究方向主要集中在多模态大模型（LVLMs）的全面评估上。该数据集包含118,010张图像和127,995个问答项，涵盖12种不同的模态，并涉及超过20个人体解剖区域。研究者们通过对比8个通用领域和4个医学专用领域的LVLMs，探索其在医学视觉问答任务中的表现。此外，研究还涉及Tiny LVLM-eHub的早期多模态实验，特别是与Google Bard模型的结合，以及ChatGPT在评估中的应用，这些研究为医学领域的多模态模型评估提供了新的视角和方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据，涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标（如pH值、溶解氧、总硬度等）以及环境因素（如气温、降水量等）。

www.ngac.org.cn 收录

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录