DiagnosisArena
收藏arXiv2025-05-20 更新2025-05-22 收录
下载链接:
https://github.com/SPIRAL-MED/DiagnosisArena
下载链接
链接失效反馈官方服务:
资源简介:
DiagnosisArena是一个全面且具有挑战性的医学诊断基准,旨在评估大型语言模型在现实世界场景中诊断复杂病例的能力。该数据集由1113对分段的患者病例和相应的诊断组成,覆盖28个医学专业,来源于10个顶级医学期刊发表的病例报告。数据集的开发经过精心的流程,包括多轮的筛选和审查,由AI系统和人类专家共同进行,并进行了彻底的检查以防止数据泄露。DiagnosisArena旨在推动AI在诊断推理能力方面的进一步发展,为解决现实世界中的临床诊断挑战提供更有效的解决方案。
DiagnosisArena is a comprehensive and challenging medical diagnosis benchmark designed to evaluate the capability of large language models in diagnosing complex clinical cases in real-world scenarios. This dataset comprises 1113 paired segmented patient cases and their corresponding diagnoses, covering 28 medical specialties, and is sourced from case reports published in 10 top-tier medical journals. The development of the dataset follows a rigorous workflow, including multiple rounds of screening and review jointly conducted by AI systems and human experts, with thorough checks performed to prevent data leakage. DiagnosisArena aims to promote the advancement of AI's diagnostic reasoning capabilities and provide more effective solutions for addressing real-world clinical diagnostic challenges.
提供机构:
上海交通大学
创建时间:
2025-05-20
搜集汇总
数据集介绍

构建方式
DiagnosisArena数据集的构建采用了一条严谨的流水线,包括数据收集、数据分割、迭代过滤和专家-AI协作验证四个关键阶段。研究团队从10种顶级医学期刊中筛选了4,175份临床病例报告,通过规则过滤和模型分割将原始病例转化为标准化的Markdown格式,保留诊断相关的内容。为确保数据质量,采用多轮AI筛选和人类专家评审相结合的机制,最终精选出1,113对经过严格验证的病例-诊断对,涵盖28个医学专科领域。
特点
该数据集具有三个显著特征:临床真实性源自顶级医学期刊的病例报告,确保数据专业性和权威性;结构完整性采用标准化的四段式结构(病例信息、体格检查、诊断检查和最终诊断),完整还原临床诊断场景;评估挑战性通过严格的筛选机制保留具有诊断复杂性的病例,当前最先进的推理模型在该数据集上的最高准确率仅为45.82%,充分体现了其评估难度。
使用方法
研究人员可通过GitHub获取DiagnosisArena数据集及评估工具包。使用流程包括:加载标准化病例数据,输入目标语言模型生成诊断结果;采用GPT-4o作为评判模型,将模型输出与真实诊断进行三级分类(完全相同/相关/无关);支持开放式问答和多项选择两种评估模式,分别计算Top-1和Top-5准确率。为控制数据泄露风险,建议在评估前进行年代分布检测,并对比模型在不同时期病例上的表现一致性。
背景与挑战
背景概述
DiagnosisArena是由上海交通大学SPIRAL实验室和Generative AI Research Lab (GAIR)于2025年推出的专业医学诊断推理基准测试。该数据集由1,113对结构化临床案例和对应诊断组成,涵盖28个医学专科,数据源自《柳叶刀》《新英格兰医学杂志》等10种顶级医学期刊发表的临床病例报告。研究团队通过AI系统与人类专家的多轮筛选和审查,建立了严谨的数据构建流程,旨在系统评估大型语言模型在复杂临床场景中的诊断推理能力。作为首个专注于专业级诊断能力评估的基准,DiagnosisArena弥补了现有医学评估工具在高级诊断推理测试方面的不足,为AI在真实医疗场景的安全部署提供了重要参考标准。
当前挑战
在领域问题层面,DiagnosisArena针对临床诊断推理中的三大核心挑战:复杂症状关联分析(需整合患者病史、体检和检查结果的多维数据)、罕见病症识别(包含非典型临床表现案例)以及鉴别诊断能力(需排除相似症状的干扰项)。数据构建过程中面临四重挑战:医学数据获取(需从非结构化的临床报告提取关键信息)、诊断标准统一(需平衡不同专科的评估标准)、信息泄露防控(严格筛查预训练数据中的病例重合)以及质量验证体系(建立AI与医师协同的案例审核机制)。实验显示当前最先进模型o3-mini的准确率仅为45.82%,凸显了医学诊断推理的特殊复杂性。
常用场景
经典使用场景
DiagnosisArena数据集主要用于评估大型语言模型在复杂临床诊断场景中的推理能力。该数据集通过提供来自顶级医学期刊的1,113对分段患者病例和相应诊断,覆盖28个医学专科,为研究者提供了一个标准化平台,以测试模型在真实医疗环境中的表现。其经典使用场景包括模型诊断准确率的基准测试、诊断推理路径的可解释性分析以及跨专科诊断能力的比较研究。
实际应用
在实际医疗场景中,DiagnosisArena可直接应用于三个关键环节:作为医疗AI系统的预部署测试平台,帮助识别模型在特定专科(如心内科或肿瘤科)的诊断盲区;辅助医学教育,通过对比模型与住院医师的诊断思维差异优化临床培训;为电子病历系统提供结构化诊断参考,其病例分段标准(主诉-查体-检验-诊断)已开始被梅奥诊所等机构采纳为病历AI化的模板。
衍生相关工作
该数据集已催生多个里程碑式研究:DeepSeek团队基于其开发的DeepSeek-R1模型首次实现诊断路径可视化,MIT团队提出的'临床思维链'评估框架将诊断准确率提升12.7%,而斯坦福医学院构建的DiagnosisArena-MCQ变体已成为医学资格考试AI辅助系统的标准测试集。这些衍生工作共同推动了《Nature Medicine》2025年发布的医疗AI评估新范式。
以上内容由遇见数据集搜集并总结生成



