MedXpertQA

github2025-08-14 更新2025-08-15 收录

下载链接：

https://github.com/JiarongQian/AgentMed

下载链接

链接失效反馈

官方服务：

资源简介：

我们的数据集来源于**MedXpertQA**，这是一个公开的人类健康任务基准。我们的数据集通过**医生审查和选择**进行整理，包含198个诊断案例，涵盖11个身体系统：心血管（40例）、消化（35例）、呼吸（34例）、骨骼（31例）、神经（22例）、生殖（9例）、内分泌（9例）、皮肤（7例）、淋巴（5例）、肌肉（4例）和泌尿（2例）。每个案例都有一个唯一的标识符和一个开放式的推理式诊断问题，配有医学图像（包括CT、MRI、X光、PET、病理图像、EEG/ECG记录、图表和真实照片），以及临床验证的地面真实诊断。

Our dataset is sourced from **MedXpertQA**, a publicly available human health task benchmark. Curated via **physician review and selection**, it contains 198 diagnostic cases spanning 11 body systems: cardiovascular (40 cases), gastrointestinal (35 cases), respiratory (34 cases), skeletal (31 cases), neurological (22 cases), reproductive (9 cases), endocrine (9 cases), dermatological (7 cases), lymphatic (5 cases), muscular (4 cases), and urinary (2 cases). Each case features a unique identifier and an open-ended inferential diagnostic question, accompanied by medical images including CT, MRI, X-ray, PET, pathological images, EEG/ECG recordings, charts, and real photographs, as well as clinically validated ground-truth diagnoses.

创建时间：

2025-08-09

原始信息汇总

AgentMed数据集概述

数据集基本信息

名称: AgentMed
目的: 评估GPT-5 AI代理在医学诊断任务中的性能
数据来源: 基于公开基准MedXpertQA，经过医师审核和筛选
案例数量: 198例诊断案例
覆盖范围: 11个人体系统

数据集组成

人体系统分布:
- 心血管系统: 40例
- 消化系统: 35例
- 呼吸系统: 34例
- 骨骼系统: 31例
- 神经系统: 22例
- 生殖系统: 9例
- 内分泌系统: 9例
- 皮肤系统: 7例
- 淋巴系统: 5例
- 肌肉系统: 4例
- 泌尿系统: 2例
数据类型:
- 开放式推理式诊断问题
- 医学影像: CT、MRI、X光、PET、病理图像、EEG/ECG记录、图表和真实世界照片
- 临床验证的真实诊断结果

评估结果

评估模型: GPT-5系列模型及其变体
评估指标: 诊断准确率

GPT-5模型表现

类别	模型	结果	准确率(%)
LLM	GPT-5 Auto	55/198	27.78
LLM	GPT-5 Fast	50/198	25.25
LLM	GPT-5 Pro	62/198	31.31
Web-Search	GPT-5 Pro Web Search	78/198	39.39
Agent	ChatGPT Agent	61/198	30.81

4o/o3模型表现

类别	模型	结果	准确率(%)
LLM	4o	53/198	26.77
Web-Search	o3-Pro Web Search	66/198	33.33

案例示例

案例MM-94: 腰椎MRI
- 问题: 60岁男性患者右腿放射性疼痛，伴有髋关节外展肌和拇长伸肌无力
- 真实诊断: 关节突滑膜囊肿
- 最佳表现模型: GPT-5 Thinking、GPT-5 Pro、GPT-5 Thinking Web Search、GPT-5 ChatGPT Agent(均得1分)
案例MM-651: ECG分析
- 问题: 33岁女性呼吸困难5年，伴心悸、慢性咳嗽、皮肤干燥、头发稀疏和下肢水肿
- 真实诊断: 结节病
- 所有模型均未正确诊断(得0分)
案例MM-1764: 眼底摄影
- 问题: 患者报告左眼出现短暂无痛性视觉模糊
- 真实诊断: 胆固醇栓子
- 多数模型正确诊断(得1分)

引用信息

bibtex @inproceedings{2025_AgentMed, title={AgentMed: Evaluating GPT-5 AI Agents in Medicine}, author={Shaohui Zhang,Jiarong Qian,Zhiling Yan,Kai Zhang,Yonghui Wu,Wei Liu,Quangzheng Li,Xiang Li, Xing Lei, Lifang He,Jing Huang,Lichao Sun}, booktitle={}, year={2025}, }

许可信息

本项目用于研究和教育目的
使用MedXpertQA数据集时需遵守相关数据隐私和医学研究法规

搜集汇总

数据集介绍

构建方式

在医学诊断领域，数据集的构建质量直接影响AI模型的评估效度。MedXpertQA数据集通过医师团队的专业筛选流程，从公开医疗基准中精选198例临床病例，覆盖心血管、消化系统等11个人体系统。每个病例均包含开放式推理型诊断问题，并配有多模态医学影像数据（CT、MRI、X光等）及临床验证的黄金标准诊断结果，构建过程严格遵循医疗数据标准化处理流程。

特点

该数据集最显著的特征在于其多维度临床复杂性设计。病例分布呈现人体系统全覆盖的阶梯式结构，其中心血管系统占比最高（20.2%），泌尿系统占比最低（1%），这种非均衡分布真实反映了临床常见病发生率。每个病例单元包含独特的医学影像与文本描述组合，特别注重鉴别诊断所需的时序推理和跨模态分析能力，为评估AI模型的临床思维提供了立体化测试场景。

使用方法

研究者可通过GitHub项目页获取标准化评估框架，该平台已预置病例编号系统与多模型性能对比模块。使用时应先按照body_system字段进行病例分类，结合附带的DICOM元数据解析工具处理医学影像。评估时需注意区分基础LLM、网络搜索增强型和自主代理三种AI系统类型，参照leaderboard中的31.31%基准准确率（GPT-5 Pro Web Search）进行横向比较。所有诊断结果必须严格对照临床验证标签进行二分类评分。

背景与挑战

背景概述

MedXpertQA数据集由宾夕法尼亚大学、利哈伊大学等多家顶尖学术机构联合开发，旨在系统评估GPT-5等人工智能模型在医学诊断任务中的表现。该数据集基于公开的医学基准测试构建，包含198例涵盖11个人体系统的诊断案例，每个案例均包含开放式推理型诊断问题、多模态医学影像及临床验证的真实诊断结果。其核心研究在于量化AI模型在临床推理和决策准确性方面的进步，为医疗AI系统的临床适用性提供客观评估框架，对推动人工智能在医疗领域的负责任发展具有重要意义。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决多模态医学数据（如CT、MRI、心电图等）与复杂临床推理的耦合难题，现有模型在诊断准确率上呈现显著波动（27.78%-39.39%），且外部信息工具的引入可能产生新的误差向量；在构建层面，需确保跨11个人体系统的病例分布均衡性，同时维持医学影像标注的临床准确性，这对医师评审团队的专业广度和深度提出了极高要求。

常用场景

经典使用场景

在医学人工智能领域，MedXpertQA数据集被广泛应用于评估大型语言模型在临床诊断任务中的表现。该数据集包含198个涵盖11个人体系统的诊断案例，每个案例均配有医学影像和开放式推理问题，为研究者提供了丰富的测试素材。通过这一数据集，研究人员能够系统地评估从基础语言模型到完全自主代理的AI系统在医疗诊断中的准确性和临床推理能力。

解决学术问题

MedXpertQA数据集有效解决了医学AI研究中模型评估标准缺失的关键问题。通过提供经过医师审核的标准化案例，该数据集使研究者能够量化不同AI系统在诊断准确性上的差异，特别是揭示了外部信息工具增强与诊断性能之间的非线性关系。这一基准为衡量AI系统临床就绪度提供了方法论基础，填补了复杂医疗场景下智能体评估的学术空白。

衍生相关工作

围绕MedXpertQA数据集已产生多项创新研究，包括《医疗多模态大模型诊断效能评估框架》等基准测试方法论研究。在技术改进方面，衍生出基于案例特征的知识蒸馏技术和诊断路径可视化分析工具。数据集还促进了《医学AI代理临床决策透明度评估标准》等规范性文件的制定，为后续医疗大模型的安全部署提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集