CDrugRed

Name: CDrugRed
Creator: 大连理工大学计算机科学与技术学院,大连医科大学附属第二医院药剂科
Published: 2025-10-24 09:47:23
License: 暂无描述

arXiv2025-10-24 更新2025-11-05 收录

下载链接：

https://github.com/DUTIR-BioNLP/CDrugRed

下载链接

链接失效反馈

官方服务：

资源简介：

CDrugRed 是一个针对代谢疾病出院药物推荐的中文数据集，包含来自 3190 名患者的 5894 条匿名医疗记录，包含患者的详细人口统计信息、医疗历史、治疗过程、出院诊断和出院药物等全面信息。该数据集由大连医科大学附属第二医院内分泌科提供，数据收集时间跨度为 2013 年至 2023 年。数据集的创建旨在为开发更准确、高效和稳健的药物推荐系统提供支持，并为解决代谢疾病患者的个性化出院药物治疗决策提供数据基础。

CDrugRed is a Chinese dataset dedicated to discharge medication recommendation for metabolic diseases. It contains 5894 anonymous medical records from 3190 patients, encompassing comprehensive information including detailed patient demographics, medical histories, treatment courses, discharge diagnoses, prescribed discharge medications and other relevant clinical data. This dataset was provided by the Department of Endocrinology, the Second Affiliated Hospital of Dalian Medical University, with data collected over the period from 2013 to 2023. The dataset was developed to support the development of more accurate, efficient and robust medication recommendation systems, and to provide a reliable data foundation for advancing personalized discharge medication treatment decision-making for patients with metabolic diseases.

提供机构：

大连理工大学计算机科学与技术学院,大连医科大学附属第二医院药剂科

创建时间：

2025-10-24

搜集汇总

数据集介绍

构建方式

在代谢性疾病临床用药推荐领域，CDrugRed数据集通过严谨的多阶段流程构建而成。研究团队从三甲医院内分泌科2013至2023年的电子健康记录中，依据明确的纳入排除标准筛选出3190名患者的5894条有效记录。采用大型语言模型进行自动化脱敏处理和药物信息提取，通过两阶段标准化流程将药物名称统一至丁香园标准命名体系，最终经临床专家人工审核确保数据质量与隐私合规性。

使用方法

该数据集适用于基于电子健康记录的药物推荐研究，使用者可通过加载标准化JSON格式数据获取患者全周期临床信息。基准实验表明，采用监督微调策略能有效提升模型性能，建议将患者诊疗文本与候选药物列表共同作为模型输入，通过精确率、召回率等指标评估推荐效果。研究社区可在遵守数据使用协议前提下，利用该数据集开发面向中文临床场景的个性化用药推荐系统。

背景与挑战

背景概述

随着人工智能技术在医疗领域的深入应用，基于电子健康记录的智能药物推荐系统成为提升临床决策质量的关键工具。CDrugRed数据集由大连理工大学与大连医科大学附属第二医院于2023年联合构建，聚焦代谢疾病出院药物推荐这一临床核心问题。该数据集包含3,190名患者的5,894条脱敏医疗记录，涵盖人口统计学特征、病史、诊疗过程及出院诊断等完整信息，填补了中文临床药物推荐数据资源的空白，为开发符合中国人群特征的精准用药模型提供了重要基础。

当前挑战

在领域问题层面，代谢疾病药物推荐需应对多病共存、个体差异显著等临床复杂性，要求模型精准平衡疗效与药物相互作用风险。数据构建过程中面临三大挑战：原始医疗记录中药物名称存在拼写变异与剂型描述不一致，需通过两阶段标准化处理确保数据规范性；出院医嘱文本嵌入非结构化描述，需采用大语言模型进行精准抽取；为保护患者隐私，需通过自动化脱敏技术消除敏感信息，同时保持临床语义完整性。

常用场景

经典使用场景

在代谢性疾病临床决策支持系统中，CDrugRed数据集作为首个公开的中文出院用药推荐数据集，为基于电子健康记录的智能药物推荐研究提供了重要支撑。该数据集最经典的应用场景是构建个性化出院用药推荐模型，研究人员利用患者的人口统计学特征、病史信息、临床诊疗过程和出院诊断等多维度数据，训练能够自动生成合理用药方案的智能系统。通过对5894条真实世界医疗记录的深度分析，模型能够学习到代谢性疾病患者复杂的用药规律和治疗路径。

解决学术问题

CDrugRed数据集有效解决了中文医疗领域缺乏高质量真实世界用药推荐数据的学术瓶颈。该数据集填补了代谢性疾病出院用药推荐研究的数据空白，为探索基于大语言模型的临床决策支持系统提供了基准测试平台。通过系统性的实验验证，研究发现监督微调策略相比零样本提示能显著提升模型性能，但最佳F1分数仅达到0.5648，这揭示了临床用药推荐任务的内在复杂性，为后续研究指明了改进方向。

实际应用

在实际医疗场景中，CDrugRed数据集支撑的智能用药推荐系统能够辅助临床医师制定个体化出院用药方案。系统通过综合分析患者的完整病历信息，包括现病史、既往史、临床诊疗过程和实验室检查结果，生成符合临床指南的药物治疗建议。这种数据驱动的方法特别适用于高血压、高血脂、糖尿病等代谢性疾病的长期管理，能够有效提升用药安全性和治疗效果，减少因用药不当导致的再入院风险。

数据集最近研究