CaseProArena

github2025-05-22 更新2025-05-27 收录

下载链接：

https://github.com/SPIRAL-MED/DiagnosisArena

下载链接

链接失效反馈

官方服务：

资源简介：

CaseProArena是一个全面且具有挑战性的医学基准，旨在评估大型语言模型在临床环境中的诊断推理能力。通过精心构建的流程，CaseProArena包含1,113对结构化患者病例和相应诊断，涵盖28个医学专业，源自10种高影响力医学期刊发表的临床病例报告。实验结果表明，即使是最先进的推理模型在CaseProArena上的表现也相对较差。通过CaseProArena，我们旨在推动AI诊断推理能力的进一步发展，为现实世界临床诊断挑战提供更有效的解决方案。

CaseProArena is a comprehensive and challenging medical benchmark designed to evaluate the diagnostic reasoning capabilities of large language models (LLMs) in clinical settings. Through a meticulously constructed pipeline, CaseProArena includes 1,113 pairs of structured patient cases and their corresponding diagnoses, covering 28 medical specialties, which are derived from clinical case reports published in 10 high-impact medical journals. Experimental results demonstrate that even state-of-the-art reasoning models perform relatively poorly on CaseProArena. Through CaseProArena, we aim to further advance the development of AI diagnostic reasoning capabilities and provide more effective solutions for real-world clinical diagnostic challenges.

创建时间：

2025-05-06

原始信息汇总

DiagnosisArena数据集概述

数据集简介

名称：DiagnosisArena（或CaseProArena）
目的：评估大型语言模型在临床环境中的诊断推理能力
规模：包含1,113对结构化患者病例和相应诊断
覆盖范围：涵盖28个医学专业领域
数据来源：来自10种高影响力医学期刊发表的临床病例报告

数据内容

测试集：包含1,000个实例（含答案）
数据字段：
- id：唯一标识符
- Case Information：患者基本信息（人口统计资料和临床病史）
- Physical Examination：体格检查结果
- Diagnostic Tests：诊断测试（实验室测试、影像学检查、基因检测等）
- Final Diagnosis：最终诊断（单一术语表达）
- Options：四个诊断选项
- Right Option：基于临床证据和指南的正确选项

使用方法

加载数据

数据平台：Hugging Face（shzyk/DiagnosisArena）
代码示例： python from datasets import load_dataset dataset=load_dataset("shzyk/DiagnosisArena", split="test")

推理

脚本命令： bash python inference.py --hf_data_path shzyk/DiagnosisArena --model_name gpt-4o --output_path ./model_answer.jsonl --api_key YOUR_API_KEY --base_url YOUR_BASE_URL --folk_nums 16

评估

评估脚本： bash python evaluation.py --input_path ./results/model_answer.jsonl --output_path ./results/model_answer_evaled.jsonl --model_name gpt-4o --api_key YOUR_API_KEY --base_url YOUR_BASE_URL --folk_nums 16
指标计算： bash python metric_results.py --model_name gpt-4o --metric_path ./results/model_answer_evaled.jsonl

引用信息

论文标题：DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models
作者：Yakun Zhu等
年份：2025
期刊：arXiv preprint arXiv:2505.14107
引用格式：

@article{zhu2025diagnosisarena, title={DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models}, author={Yakun Zhu and Zhongzhen Huang and Linjie Mu and Yutong Huang and Wei Nie and Shaoting Zhang and Pengfei Liu and Xiaofan Zhang}, year={2025}, journal={arXiv preprint arXiv:2505.14107}, url={https://arxiv.org/abs/2505.14107} }

联系方式

联系人邮箱：xiaofan.zhang@sjtu.edu.cn

搜集汇总

数据集介绍

构建方式

DiagnosisArena数据集通过严谨的构建流程，从10种高影响力医学期刊中提取临床病例报告，精心筛选出1,113对结构化患者病例与对应诊断结果，涵盖28个医学专科领域。每一病例均包含患者基本信息、体格检查、诊断测试等关键临床数据，确保数据的专业性和代表性。构建过程中严格遵循临床证据和指南，为评估大语言模型的诊断推理能力提供了可靠基准。

特点

该数据集以其全面性和挑战性著称，覆盖广泛的医学专科领域，病例信息结构完整且标注精确。每个数据条目均包含患者详细信息、体格检查结果、诊断测试数据及最终诊断，并配有四个选项以测试模型的诊断推理能力。实验表明，即使当前最先进的推理模型在该数据集上表现仍有提升空间，凸显了其在推动AI诊断推理技术进步方面的重要价值。

使用方法

用户可通过Hugging Face平台便捷加载数据集，利用提供的代码片段快速进行模型推理与评估。数据集支持多线程处理，用户需指定模型名称、API密钥等参数运行推理脚本，生成预测结果后通过评估脚本进行性能分析。最终可通过metric_results.py脚本获取详细的Top-k指标结果，全面评估模型在诊断推理任务上的表现。

背景与挑战

背景概述

DiagnosisArena是由上海交通大学等机构的研究团队于2025年推出的医学诊断推理基准数据集，旨在评估大型语言模型在临床环境中的诊断推理能力。该数据集基于10种高影响力医学期刊发表的临床案例报告，构建了1,113对结构化患者病例与对应诊断结果，覆盖28个医学专科领域。作为医学人工智能领域的重要基准，DiagnosisArena通过严谨的构建流程和广泛的专科覆盖，为评估AI系统的临床诊断能力提供了标准化测试平台，其研究结果揭示了当前最先进推理模型在医学诊断任务中仍存在的显著局限性。

当前挑战

该数据集主要应对医学诊断推理这一复杂认知任务的评估挑战，包括从患者主诉、体格检查到辅助检查结果的多模态信息整合，以及基于循证医学的鉴别诊断能力测试。在构建过程中，研究团队面临临床案例的专业性标注、跨专科术语的统一标准化、以及诊断结果与临床证据的精确匹配等关键技术难题。实验数据表明，现有AI模型在该基准上的表现仍远低于临床专家水平，突显了医学知识表示、多步推理和不确定性处理等核心挑战。

常用场景

经典使用场景

在医学人工智能领域，DiagnosisArena数据集被广泛应用于评估大型语言模型在临床诊断推理中的表现。该数据集通过精心构建的1,113对结构化患者病例和诊断结果，覆盖了28个医学专科，为研究人员提供了一个全面且具有挑战性的基准测试平台。经典使用场景包括模型在模拟临床环境下的诊断准确性测试，以及在不同医学专科中的泛化能力评估。

实际应用

在实际应用中，DiagnosisArena数据集被用于开发和优化临床决策支持系统。医疗机构和研究团队利用该数据集测试和比较不同AI模型的诊断性能，从而筛选出最适合临床应用的模型。此外，该数据集还可用于医学教育，帮助医学生和住院医师通过模拟病例提高诊断能力。

衍生相关工作

围绕DiagnosisArena数据集，学术界衍生了一系列经典研究工作。例如，基于该数据集的基准测试结果，研究人员开发了新的诊断推理模型优化方法。此外，该数据集还促进了跨学科合作，推动了医学与人工智能领域的深度融合，催生了多篇高影响力论文和临床AI应用案例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集