myuniverse/GMAI-MMBench

Name: myuniverse/GMAI-MMBench
Creator: myuniverse
Published: 2024-07-09 05:39:48
License: 暂无描述

Hugging Face2024-07-09 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/myuniverse/GMAI-MMBench

下载链接

链接失效反馈

官方服务：

资源简介：

GMAI-MMBench是一个面向通用医疗AI的综合多模态评估基准，包含285个数据集，涵盖38种医学图像模态、19个临床相关任务、18个科室和4种感知粒度，以视觉问答（VQA）格式构建。数据集还实现了一个词汇树结构，允许用户自定义评估任务，支持医疗AI研究和应用。数据集通过公开和医院提供的伦理批准数据构建，经过数据过滤、图像格式统一和标签表达标准化等步骤。最后，数据集通过额外的验证和手动选择得到。

GMAI-MMBench is a comprehensive multimodal evaluation benchmark towards General Medical AI, comprising 285 datasets across 38 medical image modalities, 19 clinical-related tasks, 18 departments, and 4 perceptual granularities in a Visual Question Answering (VQA) format. The dataset also implements a lexical tree structure that allows users to customize evaluation tasks, supporting medical AI research and applications. The dataset is constructed from publicly available and hospital-provided ethically approved data, undergoing steps such as dataset filtering, uniforming image format, and standardizing label expression. Finally, the benchmark is obtained through additional validation and manual selection.

提供机构：

myuniverse

原始信息汇总

GMAI-MMBench

概述

GMAI-MMBench 是一个综合性的多模态评估基准，旨在推动通用医疗AI的发展。该基准包含来自285个数据集的38种医疗图像模态、19个临床相关任务、18个科室以及4种感知粒度，采用视觉问答（VQA）格式。

数据集构成

数据来源: 285个数据集，涵盖38种医疗图像模态。
数据类型: 公共数据集（268个）和医院数据集（17个）。
数据处理: 经过数据过滤、图像格式统一和标签标准化处理。
分类: 标签分为19个临床VQA任务和18个临床科室。
QA对生成: 每个标签从其对应的问题和选项池中生成QA对，每个问题包含图像模态、任务提示和相应的注释粒度信息。

词汇树结构

结构化标签: 将整个数据集结构化为词汇树，用户可根据词汇树自由选择测试内容。
定制化评估: 通过词汇树实现定制化评估，指导模型在特定领域的改进。

评估

评估方法: 使用词汇树进行定制化评估，选择科室、模态、过滤问题并评估不同模型的准确性。
评估结果: 50个LVLMs的评估结果显示，即使是最先进的GPT-4o也仅达到52%的准确率。

排行榜

排名	模型名称	Val	Test
	Random	25.70	25.94
1	GPT-4o	53.53	53.96
2	Gemini 1.5	47.42	48.36
3	Gemini 1.0	44.48	44.93
4	GPT-4V	42.50	44.33
5	Qwen-VL-Max	41.34	41.96
6	MedDr	41.95	43.69
7	MiniCPM-V2	41.79	42.54
8	DeepSeek-VL-7B	41.73	43.43
9	LLAVA-InternLM2-7b	40.07	40.45
10	InternVL-Chat-V1.5	38.86	39.79
11	TransCore-M	38.60	39.20
12	XComposer2	38.68	39.20
13	LLAVA-V1.5-7B	38.23	37.96
14	OmniLMM-12B	37.89	39.09
15	Emu2-Chat	37.86	37.93
16	mPLUG-Owl2	35.62	36.51
17	CogVLM-Chat	35.23	36.08
18	Qwen-VL-Chat	35.07	37.08
19	Yi-VL-6B	34.82	34.31
20	Claude3-Opus	32.37	32.44
21	MMAlaya	32.19	32.30
22	Mini-Gemini-7B	32.11	32.13
23	InstructBLIP-7B	31.80	30.95
24	Idelecs-9B-Instruct	29.74	31.13
25	VisualGLM-6B	29.58	30.45
26	RadFM	22.95	23.06
27	Qilin-Med-VL-Chat	22.34	22.06
28	LLaVA-Med	20.54	19.60
29	Med-Flamingo	12.74	11.64

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集