five

DiagnosisArena|医学诊断数据集|人工智能数据集

收藏
arXiv2025-05-20 更新2025-05-22 收录
医学诊断
人工智能
下载链接:
https://github.com/SPIRAL-MED/DiagnosisArena
下载链接
链接失效反馈
资源简介:
DiagnosisArena是一个全面且具有挑战性的医学诊断基准,旨在评估大型语言模型在现实世界场景中诊断复杂病例的能力。该数据集由1113对分段的患者病例和相应的诊断组成,覆盖28个医学专业,来源于10个顶级医学期刊发表的病例报告。数据集的开发经过精心的流程,包括多轮的筛选和审查,由AI系统和人类专家共同进行,并进行了彻底的检查以防止数据泄露。DiagnosisArena旨在推动AI在诊断推理能力方面的进一步发展,为解决现实世界中的临床诊断挑战提供更有效的解决方案。
提供机构:
上海交通大学
创建时间:
2025-05-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
DiagnosisArena数据集的构建采用了一条严谨的流水线,包括数据收集、数据分割、迭代过滤和专家-AI协作验证四个关键阶段。研究团队从10种顶级医学期刊中筛选了4,175份临床病例报告,通过规则过滤和模型分割将原始病例转化为标准化的Markdown格式,保留诊断相关的内容。为确保数据质量,采用多轮AI筛选和人类专家评审相结合的机制,最终精选出1,113对经过严格验证的病例-诊断对,涵盖28个医学专科领域。
特点
该数据集具有三个显著特征:临床真实性源自顶级医学期刊的病例报告,确保数据专业性和权威性;结构完整性采用标准化的四段式结构(病例信息、体格检查、诊断检查和最终诊断),完整还原临床诊断场景;评估挑战性通过严格的筛选机制保留具有诊断复杂性的病例,当前最先进的推理模型在该数据集上的最高准确率仅为45.82%,充分体现了其评估难度。
使用方法
研究人员可通过GitHub获取DiagnosisArena数据集及评估工具包。使用流程包括:加载标准化病例数据,输入目标语言模型生成诊断结果;采用GPT-4o作为评判模型,将模型输出与真实诊断进行三级分类(完全相同/相关/无关);支持开放式问答和多项选择两种评估模式,分别计算Top-1和Top-5准确率。为控制数据泄露风险,建议在评估前进行年代分布检测,并对比模型在不同时期病例上的表现一致性。
背景与挑战
背景概述
DiagnosisArena是由上海交通大学SPIRAL实验室和Generative AI Research Lab (GAIR)于2025年推出的专业医学诊断推理基准测试。该数据集由1,113对结构化临床案例和对应诊断组成,涵盖28个医学专科,数据源自《柳叶刀》《新英格兰医学杂志》等10种顶级医学期刊发表的临床病例报告。研究团队通过AI系统与人类专家的多轮筛选和审查,建立了严谨的数据构建流程,旨在系统评估大型语言模型在复杂临床场景中的诊断推理能力。作为首个专注于专业级诊断能力评估的基准,DiagnosisArena弥补了现有医学评估工具在高级诊断推理测试方面的不足,为AI在真实医疗场景的安全部署提供了重要参考标准。
当前挑战
在领域问题层面,DiagnosisArena针对临床诊断推理中的三大核心挑战:复杂症状关联分析(需整合患者病史、体检和检查结果的多维数据)、罕见病症识别(包含非典型临床表现案例)以及鉴别诊断能力(需排除相似症状的干扰项)。数据构建过程中面临四重挑战:医学数据获取(需从非结构化的临床报告提取关键信息)、诊断标准统一(需平衡不同专科的评估标准)、信息泄露防控(严格筛查预训练数据中的病例重合)以及质量验证体系(建立AI与医师协同的案例审核机制)。实验显示当前最先进模型o3-mini的准确率仅为45.82%,凸显了医学诊断推理的特殊复杂性。
常用场景
经典使用场景
DiagnosisArena数据集主要用于评估大型语言模型在复杂临床诊断场景中的推理能力。该数据集通过提供来自顶级医学期刊的1,113对分段患者病例和相应诊断,覆盖28个医学专科,为研究者提供了一个标准化平台,以测试模型在真实医疗环境中的表现。其经典使用场景包括模型诊断准确率的基准测试、诊断推理路径的可解释性分析以及跨专科诊断能力的比较研究。
实际应用
在实际医疗场景中,DiagnosisArena可直接应用于三个关键环节:作为医疗AI系统的预部署测试平台,帮助识别模型在特定专科(如心内科或肿瘤科)的诊断盲区;辅助医学教育,通过对比模型与住院医师的诊断思维差异优化临床培训;为电子病历系统提供结构化诊断参考,其病例分段标准(主诉-查体-检验-诊断)已开始被梅奥诊所等机构采纳为病历AI化的模板。
衍生相关工作
该数据集已催生多个里程碑式研究:DeepSeek团队基于其开发的DeepSeek-R1模型首次实现诊断路径可视化,MIT团队提出的'临床思维链'评估框架将诊断准确率提升12.7%,而斯坦福医学院构建的DiagnosisArena-MCQ变体已成为医学资格考试AI辅助系统的标准测试集。这些衍生工作共同推动了《Nature Medicine》2025年发布的医疗AI评估新范式。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

UCI Wine

UCI Wine数据集包含了178个样本,每个样本有13个特征,用于分类任务。这些特征包括葡萄酒的化学成分,如酒精含量、苹果酸、灰分等。数据集的目标是将葡萄酒分类为三个不同的品种。

archive.ics.uci.edu 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录