Asclepius

github2025-05-27 更新2025-05-29 收录

下载链接：

https://github.com/ljwztc/Asclepius

下载链接

链接失效反馈

官方服务：

资源简介：

Asclepius是一个全面的基准测试，旨在评估医学多模态大型语言模型（Med-MLLMs）在多个维度上的表现。它涵盖了15个医学专业、8种临床能力，并包含3,232个原始问题。

Asclepius is a comprehensive benchmark designed to evaluate the performance of medical multimodal large language models (Med-MLLMs) across multiple dimensions. It encompasses 15 medical specialties, covers 8 clinical competencies, and includes 3,232 original questions.

创建时间：

2025-05-27

原始信息汇总

Asclepius 数据集概述

数据集简介

Asclepius 是一个用于评估医学多模态大语言模型（Med-MLLMs）的综合基准测试，涵盖多个维度的评估。

数据集特点

覆盖范围：
- 15个医学专业领域
- 79个不同的身体部位和器官
- 8种临床能力（包括感知、诊断和规划任务）
- 3,232个原始问题（来源包括医学教科书、USMLE考试和精选医学数据集）
评估维度：
- 医学专业领域多样性
- 临床任务多样性
- 多模态融合能力

数据集组成

开发集：
- 包含100个公开可用的题目及其标准答案
- 专业领域和能力分布均衡
- 下载地址：https://drive.google.com/file/d/1bzCZ35s3F8BEVspklML1L71xaoq4TDKA/view?usp=sharing
测试集：
- 题目公开但不提供标准答案
- 需提交预测结果至评估服务器进行评分

主要发现

GPT-4V在Med-MLLMs中表现最佳，平均准确率达54.3%
不同专业领域间存在显著的性能差异
通用MLLMs表现优于专用Med-MLLMs
多数Med-MLLMs的多模态融合能力有限

引用信息

bibtex @article{liu2024spectrum, title={A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models}, author={Liu, Jie and Wang, Wenxuan and Su, Yihang and Huan, Jingyuan and Chen, Wenting and Zhang, Yudi and Li, Cheng-Yi and Chang, Kao-Jung and Xin, Xiaohan and Shen, Linlin and others}, journal={arXiv preprint arXiv:2402.11217}, year={2024} }

搜集汇总

数据集介绍

构建方式

在医疗多模态大语言模型评估领域，Asclepius数据集通过系统化框架实现了全面覆盖。研究团队整合了医学教科书、美国医师执照考试(USMLE)及精选医学数据集中的原始问题，构建了包含15个医学专科领域的3,232道专业问题。数据采集过程严格遵循临床实践标准，覆盖79个人体部位器官，并针对8项核心临床能力进行结构化标注，确保评估维度的专业性和全面性。多模态数据经过医学专家团队的三重校验，形成了可靠的基准测试体系。

使用方法

研究人员可通过公开的开发集快速验证模型基础性能，该子集包含100个带标准答案的典型问题，均衡覆盖各专科领域。对于全面评估，需将模型预测结果提交至官方评测服务器获取专业评分。使用过程中建议采用分层测试策略，先进行单模态能力验证，再开展跨模态融合测试。数据集配套提供标准化评估脚本，支持准确率、召回率等12项指标的自动化计算。为保障评估公正性，测试集答案采用盲评机制，研究者需严格遵循官方指南进行模型输出格式标准化预处理。

背景与挑战

背景概述

Asclepius数据集由香港城市大学、香港中文大学、深圳大学等机构的跨学科研究团队于2024年联合推出，旨在构建医疗多模态大语言模型的系统性评估基准。该数据集以古希腊医神Asclepius命名，体现了其在医疗人工智能领域的权威性追求。研究团队整合了医学教科书、美国医师执照考试(USMLE)和精选医疗数据集等权威来源，构建了涵盖15个医学专科、79个人体部位器官的3232道原始问题，全面评估模型的临床感知、诊断和规划等8项核心能力。作为首个系统评估医疗多模态大语言模型的基准，Asclepius为衡量模型在复杂医疗场景中的表现提供了标准化框架，推动了医疗AI从单模态分析向多模态综合决策的范式转变。

当前挑战

Asclepius数据集面临双重维度的挑战。在领域问题层面，医疗多模态理解存在显著的专业壁垒，不同专科间的知识差异导致模型表现波动较大，如心血管专科与病理专科的准确率差异可达23.6%。多模态融合的技术瓶颈尤为突出，现有模型在整合医学影像与文本描述时普遍存在信息丢失现象。在构建过程中，医学数据的专业标注依赖资深医师参与，但临床术语的歧义性和病例隐私保护要求大幅提升了数据清洗与脱敏的复杂度。测试集设计需平衡专科覆盖与临床场景代表性，团队采用德尔菲法进行三轮专家论证才最终确定评估框架，这种严谨性虽然保证了基准质量，却也显著延长了数据集开发周期。

常用场景

经典使用场景

在医学多模态大语言模型（Med-MLLMs）的研究领域，Asclepius数据集作为一个全面的评估基准，被广泛应用于模型性能的系统性测试。该数据集覆盖15个医学专科和8种临床能力，通过3,232个原始问题对模型进行多维度评估，特别适用于比较不同Med-MLLMs在诊断准确性、临床决策支持等方面的表现。研究人员利用这一数据集，能够深入分析模型在特定医学专科中的优劣势，为后续优化提供科学依据。

解决学术问题

Asclepius数据集有效解决了医学多模态大语言模型评估中样本单一、模态局限的学术难题。通过整合医学教材、美国医师执照考试（USMLE）等权威来源的问题，该数据集为研究者提供了标准化测试环境，填补了医学多模态评估的空白。其意义在于揭示了通用大语言模型在医学领域的潜在优势，同时指出了当前Med-MLLMs在多模态融合方面的不足，为未来研究方向提供了重要启示。

实际应用

在临床实践与医学教育中，Asclepius数据集的实际应用价值显著。医疗机构可基于该数据集的评估结果，筛选适合辅助诊断的AI模型；医学教育机构则能利用其丰富的临床案例，设计更贴近实际的教学内容。数据集涵盖的专科广泛性使其成为连接AI研究与医疗实践的重要桥梁，尤其在提升基层医疗机构的诊断水平方面具有潜在应用前景。

数据集最近研究