MACD: Medical Agent Clinical Decision-making Dataset

github2025-10-02 更新2025-10-03 收录

下载链接：

https://github.com/qjdzj/MACD-Multi-Agent-Clinical-Diagnosis-with-Self-Learned-Knowledge-for-LLM

下载链接

链接失效反馈

官方服务：

资源简介：

医疗代理临床决策数据集（MACD）是一个全面的数据集和评估框架，用于评估大型语言模型在医疗诊断场景中的临床决策能力

The Medical Agent Clinical Decision Dataset (MACD) is a comprehensive dataset and evaluation framework designed to assess the clinical decision-making capabilities of large language models in medical diagnostic scenarios.

创建时间：

2025-09-17

原始信息汇总

MACD数据集概述

数据集基本信息

数据集名称：MACD（Medical Agent Clinical Decision-making Dataset）
核心用途：评估大语言模型在医疗诊断场景中的临床决策能力
性质：综合性数据集和评估框架

项目结构

agents/：智能体实现和提示模板
collaboration_scripts/：协作结果分析脚本
configs/：实验配置文件
dataset/：数据集文件和工具
evaluators/：不同病理评估模块
icd/：ICD代码映射
missing_ids/：缺失患者ID调试工具
models/：模型接口和实现
results/：实验结果存储
scripts/：自动化实验执行脚本
tests/：各组件单元测试
tools/：支持工具和实用程序
utils/：通用实用函数

数据集获取

完整数据集：MACD-data/目录
测试数据集：MACD-data/test_set/目录
人类医师评估数据：MACD-data/MACD-human/目录

支持模型

meta-llama/Llama-3.1-8B-Instruct
meta-llama/Llama-3.1-70B-Instruct
deepseek-ai/DeepSeek-R1-Distill-Llama-70B
BioBert

诊断疾病范围

阑尾炎（appendicitis）
胆囊炎（cholecystitis）
憩室炎（diverticulitis）
胰腺炎（pancreatitis）
肺炎（pneumonia）
肺栓塞（pulmonary embolism）
心包炎（pericarditis）

核心功能特性

自学习知识获取
梅奥诊所指南
专业指南
诊断标准启用
少样本学习示例
思维链推理

实验类型

基线实验
思维链实验
少样本实验
专业指南实验
梅奥诊所指南实验
人类病例实验
与既往诊断不一致性分析

引用信息

bibtex @article{li2025macd, title={MACD: Multi-Agent Clinical Diagnosis with Self-Learned Knowledge for LLM}, author={Li, Wenliang and Yan, Rui and Zhang, Xu and Chen, Li and Zhu, Hongji and Zhao, Jing and Li, Junjun and Li, Mengru and Cao, Wei and Jiang, Zihang and others}, journal={arXiv preprint arXiv:2509.20067}, year={2025} }

搜集汇总

数据集介绍

构建方式

在医疗人工智能领域，MACD数据集通过严谨的医学知识框架构建而成。该数据集基于MIMIC临床决策框架进行扩展，采用模块化架构组织诊断场景，涵盖七种典型病理类型。数据采集过程整合了真实临床环境中的诊断要素，通过专业医学知识库与临床指南的交叉验证，确保病例数据的医学准确性。数据集构建特别注重诊断逻辑的完整性，为每种病理配置了独立的评估模块与ICD代码映射体系。

特点

该数据集展现出多维度融合的鲜明特征，其核心价值在于模拟真实医疗决策场景的复杂性。数据集包含专业化诊断代理模板，集成梅奥诊所指南与自学习知识机制，支持链式推理与少样本学习模式。独特的协作分析工具能评估人机协同诊断流程，而模块化设计允许研究者针对特定病理开展定向实验。数据划分体现科学考量，设有完整测试集与人类医生评估专用数据集，确保评估结果的临床可信度。

使用方法

研究者可通过标准化流程使用该数据集进行临床决策能力评估。启动时需配置指定的大语言模型与目标病理参数，通过命令行调用核心推理脚本实现诊断模拟。实验框架提供自动化执行脚本，涵盖基线测试、思维链分析及不同临床指南的对比实验。评估阶段采用专用分析工具对诊断结果进行量化评估，自学习知识获取模块则完整再现智能体知识演化过程，但需注意该过程具有较高的计算资源需求。

背景与挑战

背景概述

随着大语言模型在医疗领域的深入应用，评估其临床决策能力成为关键研究课题。MACD数据集由研究团队于2025年创建，旨在构建多智能体临床诊断评估框架，通过整合梅奥诊所指南、专业诊疗规范等权威知识，系统检验大语言模型在肺炎、胰腺炎等七类典型病理诊断中的表现。该数据集基于MIMIC临床决策框架进行扩展，为医疗人工智能的可靠性验证提供了标准化测试基准。

当前挑战

医疗诊断任务需应对复杂病理特征的精准辨识挑战，包括症状相似性疾病鉴别、多模态医疗数据融合等核心难题。在数据集构建过程中，面临临床指南知识结构化整合、诊断逻辑链条一致性维护等技术瓶颈，同时需确保不同规模语言模型在诊断准确性与推理可解释性之间的平衡。

常用场景

经典使用场景

在医疗人工智能领域，MACD数据集为评估大语言模型的临床诊断能力提供了标准化测试平台。该数据集通过模拟真实医疗场景中的多轮医患对话，系统检验模型在肺炎、胰腺炎等七种常见病理条件下的诊断推理过程，其核心价值在于构建了包含症状分析、鉴别诊断和治疗建议的完整临床决策链条。

实际应用

在实际医疗场景中，MACD可作为智能诊断系统的训练与验证基准，辅助开发临床决策支持工具。其多智能体协作框架能够模拟专科医生会诊流程，在基层医疗机构中实现常见疾病的初步筛查，有效缓解医疗资源分布不均的问题，为远程医疗诊断提供技术支撑。

衍生相关工作

基于MACD数据集衍生的研究已形成系列经典成果。其中基于自我学习知识的诊断增强方法显著提升了模型的专业性，结合梅奥诊所指南的推理框架创新了临床知识融合范式，而多智能体协作诊断机制则开创了分布式医疗决策的新路径，这些工作共同推动了医疗大模型研究向纵深发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集