five

GMAI-MMBench|医疗AI数据集|评估基准数据集

收藏
arXiv2024-08-09 更新2024-08-10 收录
医疗AI
评估基准
下载链接:
https://uni-medical.github.io/GMAI-MMBench.github.io/
下载链接
链接失效反馈
资源简介:
GMAI-MMBench是由上海人工智能实验室等机构创建的综合性医疗AI评估基准,包含285个高质量数据集,覆盖39种医疗图像模态和18个临床任务。数据集内容丰富,包括2D检测、分类和2D/3D分割等多种任务,数据来源于全球各地的公共和医院资源。创建过程中,数据集经过严格筛选和标准化处理,确保了数据的多样性和临床相关性。该数据集主要用于评估和提升大型视觉语言模型在医疗领域的应用,特别是在疾病诊断和治疗方面的辅助能力。
提供机构:
上海人工智能实验室
创建时间:
2024-08-07
AI搜集汇总
数据集介绍
main_image_url
构建方式
GMAI-MMBench数据集的构建过程分为三个主要步骤。首先,数据集收集和标准化,从公共来源和医院收集285个高质量的数据集,涵盖各种医学图像任务,包括2D检测、2D分类和2D/3D分割。其次,标签分类和词汇树构建,将所有标签分为18个临床VQA任务、18个临床部门和35个模态,并生成词汇树结构以方便自定义评估。最后,QA生成和选择,为每个标签生成VQA对,并进行人工验证和选择,确保数据质量和平衡分布。
特点
GMAI-MMBench数据集具有三个主要特点:1)全面的医学知识:由来自全球的285个多样化的临床相关数据集组成,涵盖39种模态;2)良好的分类数据结构:包含18个临床VQA任务和18个临床部门,精心组织成词汇树;3)多感知粒度:交互方法从图像到区域级别,提供不同程度的感知细节。
使用方法
使用GMAI-MMBench数据集时,用户可以根据词汇树结构自定义评估任务,选择所需的数据点和评估指标。此外,用户还可以根据模型的需求选择不同的感知粒度,如图像、区域、掩码和轮廓级别,以评估模型在不同任务和感知粒度上的性能。
背景与挑战
背景概述
在医疗领域,大型视觉语言模型(LVLMs)展现出巨大的潜力,能够处理图像、文本和生理信号等多种数据类型,并在疾病诊断和治疗等方面提供辅助。为了评估LVLMs在医疗应用中的有效性,建立一个全面的基准至关重要。当前存在的基准通常基于特定学术文献,主要关注单一领域,缺乏感知粒度变化,导致临床相关性有限、评估不完整、对交互式LVLMs的指导不足等问题。为了解决这些限制,研究人员开发了GMAI-MMBench,这是迄今为止最全面的通用医疗AI基准,具有分类良好的数据结构和多感知粒度。GMAI-MMBench由来自全球的285个数据集构建,涵盖39种医疗图像模态、18个临床相关任务、18个科室和4种感知粒度,以视觉问答(VQA)格式组织。此外,它还实现了词汇树结构,允许用户自定义评估任务,以满足各种评估需求,并极大地支持医疗AI研究和应用。
当前挑战
GMAI-MMBench在临床实践中提出了重大挑战。即使是最好的模型GPT-4o也仅能达到52.24%的准确率,这表明最先进的LVLMs在处理医疗专业问题上存在不足,难以满足多样化的临床需求。此外,开源LVLMs(如MedDr和DeepSeek-VL-7B)的准确率约为41%,与专有模型相比具有竞争力,但仍存在明显差距。大多数医疗专用模型难以达到中等性能水平(约30%的准确率),而大多数LVLMs在不同临床VQA任务、科室和感知粒度方面表现出不平衡的性能。主要导致性能瓶颈的因素包括感知错误、缺乏医疗领域知识、不相关的回答以及因安全协议而拒绝回答问题。
常用场景
经典使用场景
GMAI-MMBench 数据集被广泛应用于评估大型视觉语言模型(LVLMs)在真实临床场景中的表现。该数据集涵盖了广泛的医疗知识和临床任务,能够帮助研究者们评估 LVLMs 在疾病诊断、严重程度分级等医疗任务中的能力。此外,GMAI-MMBench 的多感知粒度特性使其能够评估 LVLMs 在不同感知层次上的交互能力,从而更好地满足临床需求。
衍生相关工作
GMAI-MMBench 数据集的发布引发了一系列相关研究。研究者们基于 GMAI-MMBench 进行 LVLMs 的评估和改进,探索其在医疗领域的应用潜力。此外,GMAI-MMBench 还促进了医疗 AI 基准的进一步发展,例如针对特定医疗任务或领域的基准构建,以及多模态医疗数据的整合和利用。
数据集最近研究
最新研究方向
GMAI-MMBench,作为当前最全面的通用医疗AI基准,其研究方向主要集中在医疗视觉语言模型(LVLMs)在现实临床场景中的应用评估。该数据集的设计旨在评估LVLMs在诊断和治疗等多种医疗任务中的有效性。GMAI-MMBench具有三个关键特点:1)全面的医疗知识,由来自世界各地的285个多样化的临床相关数据集组成,涵盖39种模态;2)良好的分类数据结构,具有18个临床视觉问答任务和18个临床部门,精心组织成词法树;3)多感知粒度,交互方法从图像到区域级别,提供不同程度的感知细节。该数据集的最新研究揭示了LVLMs在处理医疗任务时的局限性,例如在复杂推理任务和特定临床部门中的性能不平衡。此外,该研究还发现开源模型在性能上逐渐接近商业模型,但所有模型在多选择问题上的表现仍有待提高。GMAI-MMBench为医疗AI研究提供了一个强大的平台,有助于推动LVLMs在医疗领域的进一步发展。
相关研究论文
  • 1
    GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI上海人工智能实验室 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OAI (Osteoarthritis Initiative)

OAI数据集包含关于骨关节炎的研究数据,包括影像学图像、临床评估、生物样本和患者问卷等。该数据集旨在支持骨关节炎的早期诊断、治疗和预防研究。

nda.nih.gov 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

VCTK (Voice Cloning Toolkit)

VCTK数据集包含来自109位不同说话者的44小时语音数据,每位说话者提供约400个句子。该数据集主要用于语音合成和语音克隆的研究。

datashare.ed.ac.uk 收录

Anti-UAV

Anti-UAV数据集由中国科学院大学创建,专注于无人机跟踪研究。该数据集包含318对RGB-T视频,总计超过580,000个手动标注的边界框,适用于长距离无人机跟踪。数据集内容丰富,包括多种场景和光照条件下的视频序列,支持单模态和多模态无人机跟踪。创建过程中,数据集通过精细的标注策略确保高质量。该数据集的应用领域主要集中在无人机监控和跟踪技术的发展,旨在解决无人机在复杂环境中的状态感知问题。

arXiv 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。

OpenDataLab 收录