Asclepius

Name: Asclepius
Creator: 香港中文大学
Published: 2024-02-17 16:04:23
License: 暂无描述

arXiv2024-02-17 更新2024-06-21 收录

下载链接：

https://asclepius-med.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

Asclepius数据集由香港中文大学的研究团队创建，旨在全面评估医学多模态大型语言模型(Med-MLLMs)的能力。该数据集包含3232个问题，覆盖了心血管、胃肠病学等15个医学专业，并针对感知、疾病分析等8种诊断能力进行评估。数据集通过整合来自当代教育材料、医学测验和未用于Med-MLLMs训练的视觉数据集的问题，确保了评估的原创性和临床代表性。Asclepius的应用领域广泛，旨在解决医学诊断中的复杂问题，提升Med-MLLMs在临床环境中的可靠性和实用性。

The Asclepius dataset, created by a research team from The Chinese University of Hong Kong, is designed to comprehensively evaluate the capabilities of medical multimodal large language models (Med-MLLMs). It contains 3,232 questions covering 15 medical specialties including cardiology, gastroenterology, and other fields, and assesses 8 types of diagnostic capabilities such as perception and disease analysis. By integrating questions from contemporary educational materials, medical quizzes, and visual datasets that have not been utilized for training Med-MLLMs, the dataset ensures the originality and clinical representativeness of the evaluation. The Asclepius dataset has a wide range of application scenarios, aiming to solve complex problems in medical diagnosis and improve the reliability and practicality of Med-MLLMs in clinical environments.

提供机构：

香港中文大学

创建时间：

2024-02-17

搜集汇总

数据集介绍

构建方式

在医学多模态大语言模型评估领域，构建一个全面且无数据泄露的基准测试至关重要。Asclepius数据集通过三重策略精心构建：首先，将现有医学图像数据集重构为视觉问答格式，将分类任务转化为是/否或多选题；其次，整合美国医师执照考试的图像与问题，确保评估标准与医学认证的严谨性对齐；最后，从权威医学教材中提取问题，覆盖解剖学、病理学等多个学科。所有数据均源自未用于模型训练的新颖材料，并通过开发集与测试集的严格隔离，有效避免了训练数据污染，保障了评估的独立性与可靠性。

使用方法

Asclepius数据集为医学多模态大语言模型的标准化评估提供了清晰路径。研究者可通过其公开网站提交模型对测试集问题的预测结果，由服务器端进行自动化评分，确保了评估过程的公正性与结果的可复现性。评估指标针对不同问题类型量身定制：对选择题与是非题采用准确率；对开放式问题采用精确匹配度；对报告生成任务则采用ROUGE-L分数。该基准已成功用于对比包括GPT-4V、Gemini及多个专用医学模型在内的六种模型，并与五位不同资历的人类医生表现进行对照分析，为理解模型在真实医疗环境中的能力边界与提升方向提供了坚实的数据支撑。

背景与挑战

背景概述

在医学人工智能领域，多模态大语言模型的迅猛发展正深刻变革现代医疗实践，催生了对模型能力进行系统性、专业化评估的迫切需求。Asclepius数据集应运而生，由香港中文大学、香港城市大学、深圳大学、阳明交通大学、斯坦福大学等机构的跨学科研究团队于2024年共同创建。该数据集的核心研究目标在于构建一个隔离、全面且临床代表性的基准，以严谨评估医学多模态大语言模型在真实世界复杂诊断框架下的综合能力。其设计哲学植根于三大核心原则：覆盖广泛的医学专科、评估多维临床能力、确保数据原创性与评估隔离性，从而填补了现有评估体系在专科深度与临床决策流程模拟方面的空白，为模型的安全临床部署奠定了科学评估基础。

当前挑战

Asclepius数据集旨在解决的领域核心挑战，是医学多模态大语言模型评估中存在的专科覆盖不足、临床能力维度单一以及数据泄露风险。具体而言，传统评估基准往往无法模拟涵盖15个不同医学专科的复杂知识体系，也难以系统评估从感知、诊断到治疗规划的全链条临床决策能力。在构建过程中，研究团队面临三大主要挑战：首先，需确保评估内容与真实临床决策的复杂性对齐，这要求设计能够精确映射不同专科知识深度与八种子临床能力的任务体系；其次，为避免模型在训练阶段接触过评估数据而导致性能虚高，必须从当代医学教材、执业考试及未公开使用的影像数据源中原创构建所有评估问题，实现真正的评估隔离；最后，整合多模态信息并生成连贯、专业的医学回答，对模型的多模态融合与长指令遵循能力提出了极高要求，这也是当前模型普遍存在的短板。

常用场景

经典使用场景

在医疗多模态大语言模型（Med-MLLMs）的评估领域，Asclepius数据集作为一项综合性基准测试，其经典使用场景在于系统性地评估模型在多样化医学专科与临床能力维度的表现。该数据集通过涵盖心血管、消化内科、神经科学等15个核心医学专科，并细分为感知、诊断、规划三大类共8项临床任务，为研究者提供了结构化的评估框架。其设计理念源于真实临床决策的复杂性，能够精准衡量模型在跨专科知识整合与多模态信息融合方面的潜力，成为推动Med-MLLMs在医疗场景中可靠部署的关键工具。

解决学术问题

Asclepius数据集主要解决了医疗人工智能领域长期存在的评估标准碎片化与数据泄露风险两大核心问题。传统医学基准往往局限于单一专科或任务类型，难以全面反映模型在复杂临床环境中的实际能力；同时，公开数据在训练与评估中的交叉污染可能导致模型性能被高估。该数据集通过构建独立于公开训练数据的原创多模态问题集，并引入专科与能力的双重评估维度，为Med-MLLMs提供了隔离、可信且临床代表性的评估环境，显著提升了模型比较的科学性与可重复性。

实际应用

在实际医疗场景中，Asclepius数据集的应用主要体现在辅助临床决策支持系统的开发与优化。通过模拟真实诊疗流程中的多模态信息处理需求——如医学影像解读、疾病分期评估与治疗方案生成——该数据集能够帮助开发者识别模型在特定专科（如眼科、病理学）或临床环节（如预后分析）中的薄弱点。此外，其构建的在线评估平台与排行榜促进了社区协作，为医院、研究机构与科技公司提供了标准化测试工具，加速了Med-MLLMs在远程诊断、医学教育等场景中的安全落地。

数据集最近研究