five

myuniverse/GMAI-MMBench

收藏
Hugging Face2024-07-09 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/myuniverse/GMAI-MMBench
下载链接
链接失效反馈
官方服务:
资源简介:
GMAI-MMBench是一个面向通用医疗AI的综合多模态评估基准,包含285个数据集,涵盖38种医学图像模态、19个临床相关任务、18个科室和4种感知粒度,以视觉问答(VQA)格式构建。数据集还实现了一个词汇树结构,允许用户自定义评估任务,支持医疗AI研究和应用。数据集通过公开和医院提供的伦理批准数据构建,经过数据过滤、图像格式统一和标签表达标准化等步骤。最后,数据集通过额外的验证和手动选择得到。

GMAI-MMBench is a comprehensive multimodal evaluation benchmark towards General Medical AI, comprising 285 datasets across 38 medical image modalities, 19 clinical-related tasks, 18 departments, and 4 perceptual granularities in a Visual Question Answering (VQA) format. The dataset also implements a lexical tree structure that allows users to customize evaluation tasks, supporting medical AI research and applications. The dataset is constructed from publicly available and hospital-provided ethically approved data, undergoing steps such as dataset filtering, uniforming image format, and standardizing label expression. Finally, the benchmark is obtained through additional validation and manual selection.
提供机构:
myuniverse
原始信息汇总

GMAI-MMBench

概述

GMAI-MMBench 是一个综合性的多模态评估基准,旨在推动通用医疗AI的发展。该基准包含来自285个数据集的38种医疗图像模态、19个临床相关任务、18个科室以及4种感知粒度,采用视觉问答(VQA)格式。

数据集构成

  • 数据来源: 285个数据集,涵盖38种医疗图像模态。
  • 数据类型: 公共数据集(268个)和医院数据集(17个)。
  • 数据处理: 经过数据过滤、图像格式统一和标签标准化处理。
  • 分类: 标签分为19个临床VQA任务和18个临床科室。
  • QA对生成: 每个标签从其对应的问题和选项池中生成QA对,每个问题包含图像模态、任务提示和相应的注释粒度信息。

词汇树结构

  • 结构化标签: 将整个数据集结构化为词汇树,用户可根据词汇树自由选择测试内容。
  • 定制化评估: 通过词汇树实现定制化评估,指导模型在特定领域的改进。

评估

  • 评估方法: 使用词汇树进行定制化评估,选择科室、模态、过滤问题并评估不同模型的准确性。
  • 评估结果: 50个LVLMs的评估结果显示,即使是最先进的GPT-4o也仅达到52%的准确率。

排行榜

排名 模型名称 Val Test
Random 25.70 25.94
1 GPT-4o 53.53 53.96
2 Gemini 1.5 47.42 48.36
3 Gemini 1.0 44.48 44.93
4 GPT-4V 42.50 44.33
5 Qwen-VL-Max 41.34 41.96
6 MedDr 41.95 43.69
7 MiniCPM-V2 41.79 42.54
8 DeepSeek-VL-7B 41.73 43.43
9 LLAVA-InternLM2-7b 40.07 40.45
10 InternVL-Chat-V1.5 38.86 39.79
11 TransCore-M 38.60 39.20
12 XComposer2 38.68 39.20
13 LLAVA-V1.5-7B 38.23 37.96
14 OmniLMM-12B 37.89 39.09
15 Emu2-Chat 37.86 37.93
16 mPLUG-Owl2 35.62 36.51
17 CogVLM-Chat 35.23 36.08
18 Qwen-VL-Chat 35.07 37.08
19 Yi-VL-6B 34.82 34.31
20 Claude3-Opus 32.37 32.44
21 MMAlaya 32.19 32.30
22 Mini-Gemini-7B 32.11 32.13
23 InstructBLIP-7B 31.80 30.95
24 Idelecs-9B-Instruct 29.74 31.13
25 VisualGLM-6B 29.58 30.45
26 RadFM 22.95 23.06
27 Qilin-Med-VL-Chat 22.34 22.06
28 LLaVA-Med 20.54 19.60
29 Med-Flamingo 12.74 11.64
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作