CaseProArena
收藏DiagnosisArena数据集概述
数据集简介
- 名称:DiagnosisArena(或CaseProArena)
- 目的:评估大型语言模型在临床环境中的诊断推理能力
- 规模:包含1,113对结构化患者病例和相应诊断
- 覆盖范围:涵盖28个医学专业领域
- 数据来源:来自10种高影响力医学期刊发表的临床病例报告
数据内容
- 测试集:包含1,000个实例(含答案)
- 数据字段:
id:唯一标识符Case Information:患者基本信息(人口统计资料和临床病史)Physical Examination:体格检查结果Diagnostic Tests:诊断测试(实验室测试、影像学检查、基因检测等)Final Diagnosis:最终诊断(单一术语表达)Options:四个诊断选项Right Option:基于临床证据和指南的正确选项
使用方法
加载数据
- 数据平台:Hugging Face(shzyk/DiagnosisArena)
- 代码示例: python from datasets import load_dataset dataset=load_dataset("shzyk/DiagnosisArena", split="test")
推理
- 脚本命令: bash python inference.py --hf_data_path shzyk/DiagnosisArena --model_name gpt-4o --output_path ./model_answer.jsonl --api_key YOUR_API_KEY --base_url YOUR_BASE_URL --folk_nums 16
评估
-
评估脚本: bash python evaluation.py --input_path ./results/model_answer.jsonl --output_path ./results/model_answer_evaled.jsonl --model_name gpt-4o --api_key YOUR_API_KEY --base_url YOUR_BASE_URL --folk_nums 16
-
指标计算: bash python metric_results.py --model_name gpt-4o --metric_path ./results/model_answer_evaled.jsonl
引用信息
-
论文标题:DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models
-
作者:Yakun Zhu等
-
年份:2025
-
期刊:arXiv preprint arXiv:2505.14107
-
引用格式:
@article{zhu2025diagnosisarena, title={DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models}, author={Yakun Zhu and Zhongzhen Huang and Linjie Mu and Yutong Huang and Wei Nie and Shaoting Zhang and Pengfei Liu and Xiaofan Zhang}, year={2025}, journal={arXiv preprint arXiv:2505.14107}, url={https://arxiv.org/abs/2505.14107} }
联系方式
- 联系人邮箱:xiaofan.zhang@sjtu.edu.cn




