five

GMAI-MMBench|医疗AI数据集|评估基准数据集

收藏
arXiv2024-08-09 更新2024-08-10 收录
医疗AI
评估基准
下载链接:
https://uni-medical.github.io/GMAI-MMBench.github.io/
下载链接
链接失效反馈
资源简介:
GMAI-MMBench是由上海人工智能实验室等机构创建的综合性医疗AI评估基准,包含285个高质量数据集,覆盖39种医疗图像模态和18个临床任务。数据集内容丰富,包括2D检测、分类和2D/3D分割等多种任务,数据来源于全球各地的公共和医院资源。创建过程中,数据集经过严格筛选和标准化处理,确保了数据的多样性和临床相关性。该数据集主要用于评估和提升大型视觉语言模型在医疗领域的应用,特别是在疾病诊断和治疗方面的辅助能力。
提供机构:
上海人工智能实验室
创建时间:
2024-08-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
GMAI-MMBench数据集的构建过程分为三个主要步骤。首先,数据集收集和标准化,从公共来源和医院收集285个高质量的数据集,涵盖各种医学图像任务,包括2D检测、2D分类和2D/3D分割。其次,标签分类和词汇树构建,将所有标签分为18个临床VQA任务、18个临床部门和35个模态,并生成词汇树结构以方便自定义评估。最后,QA生成和选择,为每个标签生成VQA对,并进行人工验证和选择,确保数据质量和平衡分布。
特点
GMAI-MMBench数据集具有三个主要特点:1)全面的医学知识:由来自全球的285个多样化的临床相关数据集组成,涵盖39种模态;2)良好的分类数据结构:包含18个临床VQA任务和18个临床部门,精心组织成词汇树;3)多感知粒度:交互方法从图像到区域级别,提供不同程度的感知细节。
使用方法
使用GMAI-MMBench数据集时,用户可以根据词汇树结构自定义评估任务,选择所需的数据点和评估指标。此外,用户还可以根据模型的需求选择不同的感知粒度,如图像、区域、掩码和轮廓级别,以评估模型在不同任务和感知粒度上的性能。
背景与挑战
背景概述
在医疗领域,大型视觉语言模型(LVLMs)展现出巨大的潜力,能够处理图像、文本和生理信号等多种数据类型,并在疾病诊断和治疗等方面提供辅助。为了评估LVLMs在医疗应用中的有效性,建立一个全面的基准至关重要。当前存在的基准通常基于特定学术文献,主要关注单一领域,缺乏感知粒度变化,导致临床相关性有限、评估不完整、对交互式LVLMs的指导不足等问题。为了解决这些限制,研究人员开发了GMAI-MMBench,这是迄今为止最全面的通用医疗AI基准,具有分类良好的数据结构和多感知粒度。GMAI-MMBench由来自全球的285个数据集构建,涵盖39种医疗图像模态、18个临床相关任务、18个科室和4种感知粒度,以视觉问答(VQA)格式组织。此外,它还实现了词汇树结构,允许用户自定义评估任务,以满足各种评估需求,并极大地支持医疗AI研究和应用。
当前挑战
GMAI-MMBench在临床实践中提出了重大挑战。即使是最好的模型GPT-4o也仅能达到52.24%的准确率,这表明最先进的LVLMs在处理医疗专业问题上存在不足,难以满足多样化的临床需求。此外,开源LVLMs(如MedDr和DeepSeek-VL-7B)的准确率约为41%,与专有模型相比具有竞争力,但仍存在明显差距。大多数医疗专用模型难以达到中等性能水平(约30%的准确率),而大多数LVLMs在不同临床VQA任务、科室和感知粒度方面表现出不平衡的性能。主要导致性能瓶颈的因素包括感知错误、缺乏医疗领域知识、不相关的回答以及因安全协议而拒绝回答问题。
常用场景
经典使用场景
GMAI-MMBench 数据集被广泛应用于评估大型视觉语言模型(LVLMs)在真实临床场景中的表现。该数据集涵盖了广泛的医疗知识和临床任务,能够帮助研究者们评估 LVLMs 在疾病诊断、严重程度分级等医疗任务中的能力。此外,GMAI-MMBench 的多感知粒度特性使其能够评估 LVLMs 在不同感知层次上的交互能力,从而更好地满足临床需求。
衍生相关工作
GMAI-MMBench 数据集的发布引发了一系列相关研究。研究者们基于 GMAI-MMBench 进行 LVLMs 的评估和改进,探索其在医疗领域的应用潜力。此外,GMAI-MMBench 还促进了医疗 AI 基准的进一步发展,例如针对特定医疗任务或领域的基准构建,以及多模态医疗数据的整合和利用。
数据集最近研究
最新研究方向
GMAI-MMBench,作为当前最全面的通用医疗AI基准,其研究方向主要集中在医疗视觉语言模型(LVLMs)在现实临床场景中的应用评估。该数据集的设计旨在评估LVLMs在诊断和治疗等多种医疗任务中的有效性。GMAI-MMBench具有三个关键特点:1)全面的医疗知识,由来自世界各地的285个多样化的临床相关数据集组成,涵盖39种模态;2)良好的分类数据结构,具有18个临床视觉问答任务和18个临床部门,精心组织成词法树;3)多感知粒度,交互方法从图像到区域级别,提供不同程度的感知细节。该数据集的最新研究揭示了LVLMs在处理医疗任务时的局限性,例如在复杂推理任务和特定临床部门中的性能不平衡。此外,该研究还发现开源模型在性能上逐渐接近商业模型,但所有模型在多选择问题上的表现仍有待提高。GMAI-MMBench为医疗AI研究提供了一个强大的平台,有助于推动LVLMs在医疗领域的进一步发展。
相关研究论文
  • 1
    GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI上海人工智能实验室 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作