myuniverse/GMAI-MMBench
收藏Hugging Face2024-07-09 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/myuniverse/GMAI-MMBench
下载链接
链接失效反馈官方服务:
资源简介:
GMAI-MMBench是一个面向通用医疗AI的综合多模态评估基准,包含285个数据集,涵盖38种医学图像模态、19个临床相关任务、18个科室和4种感知粒度,以视觉问答(VQA)格式构建。数据集还实现了一个词汇树结构,允许用户自定义评估任务,支持医疗AI研究和应用。数据集通过公开和医院提供的伦理批准数据构建,经过数据过滤、图像格式统一和标签表达标准化等步骤。最后,数据集通过额外的验证和手动选择得到。
GMAI-MMBench is a comprehensive multimodal evaluation benchmark towards General Medical AI, comprising 285 datasets across 38 medical image modalities, 19 clinical-related tasks, 18 departments, and 4 perceptual granularities in a Visual Question Answering (VQA) format. The dataset also implements a lexical tree structure that allows users to customize evaluation tasks, supporting medical AI research and applications. The dataset is constructed from publicly available and hospital-provided ethically approved data, undergoing steps such as dataset filtering, uniforming image format, and standardizing label expression. Finally, the benchmark is obtained through additional validation and manual selection.
提供机构:
myuniverse
原始信息汇总
GMAI-MMBench
概述
GMAI-MMBench 是一个综合性的多模态评估基准,旨在推动通用医疗AI的发展。该基准包含来自285个数据集的38种医疗图像模态、19个临床相关任务、18个科室以及4种感知粒度,采用视觉问答(VQA)格式。
数据集构成
- 数据来源: 285个数据集,涵盖38种医疗图像模态。
- 数据类型: 公共数据集(268个)和医院数据集(17个)。
- 数据处理: 经过数据过滤、图像格式统一和标签标准化处理。
- 分类: 标签分为19个临床VQA任务和18个临床科室。
- QA对生成: 每个标签从其对应的问题和选项池中生成QA对,每个问题包含图像模态、任务提示和相应的注释粒度信息。
词汇树结构
- 结构化标签: 将整个数据集结构化为词汇树,用户可根据词汇树自由选择测试内容。
- 定制化评估: 通过词汇树实现定制化评估,指导模型在特定领域的改进。
评估
- 评估方法: 使用词汇树进行定制化评估,选择科室、模态、过滤问题并评估不同模型的准确性。
- 评估结果: 50个LVLMs的评估结果显示,即使是最先进的GPT-4o也仅达到52%的准确率。
排行榜
| 排名 | 模型名称 | Val | Test |
|---|---|---|---|
| Random | 25.70 | 25.94 | |
| 1 | GPT-4o | 53.53 | 53.96 |
| 2 | Gemini 1.5 | 47.42 | 48.36 |
| 3 | Gemini 1.0 | 44.48 | 44.93 |
| 4 | GPT-4V | 42.50 | 44.33 |
| 5 | Qwen-VL-Max | 41.34 | 41.96 |
| 6 | MedDr | 41.95 | 43.69 |
| 7 | MiniCPM-V2 | 41.79 | 42.54 |
| 8 | DeepSeek-VL-7B | 41.73 | 43.43 |
| 9 | LLAVA-InternLM2-7b | 40.07 | 40.45 |
| 10 | InternVL-Chat-V1.5 | 38.86 | 39.79 |
| 11 | TransCore-M | 38.60 | 39.20 |
| 12 | XComposer2 | 38.68 | 39.20 |
| 13 | LLAVA-V1.5-7B | 38.23 | 37.96 |
| 14 | OmniLMM-12B | 37.89 | 39.09 |
| 15 | Emu2-Chat | 37.86 | 37.93 |
| 16 | mPLUG-Owl2 | 35.62 | 36.51 |
| 17 | CogVLM-Chat | 35.23 | 36.08 |
| 18 | Qwen-VL-Chat | 35.07 | 37.08 |
| 19 | Yi-VL-6B | 34.82 | 34.31 |
| 20 | Claude3-Opus | 32.37 | 32.44 |
| 21 | MMAlaya | 32.19 | 32.30 |
| 22 | Mini-Gemini-7B | 32.11 | 32.13 |
| 23 | InstructBLIP-7B | 31.80 | 30.95 |
| 24 | Idelecs-9B-Instruct | 29.74 | 31.13 |
| 25 | VisualGLM-6B | 29.58 | 30.45 |
| 26 | RadFM | 22.95 | 23.06 |
| 27 | Qilin-Med-VL-Chat | 22.34 | 22.06 |
| 28 | LLaVA-Med | 20.54 | 19.60 |
| 29 | Med-Flamingo | 12.74 | 11.64 |
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



