DDXPlus, CPDD
收藏github2025-02-11 更新2025-02-12 收录
下载链接:
https://github.com/SNOWTEAM2023/MedRAG
下载链接
链接失效反馈官方服务:
资源简介:
DDXPlus是一个大规模合成的电子健康记录(EHR)数据集,广泛认可用于提供复杂多样的医疗诊断案例。它包括全面的患者数据,如社会人口信息、基础疾病、症状和既往病史。CPDD是一个来自新加坡陈笃生医院的私人EHR数据集,用于慢性疼痛管理。
DDXPlus is a large-scale synthetic electronic health record (EHR) dataset widely recognized for providing complex and diverse medical diagnostic cases. It encompasses comprehensive patient data including sociodemographic information, underlying diseases, symptoms and past medical history. CPDD is a private EHR dataset from Tan Tock Seng Hospital in Singapore, used for chronic pain management.
创建时间:
2025-02-04
原始信息汇总
MedRAG 数据集概述
数据集简介
MedRAG是一个为医疗领域设计的 Retrieval-Augmented Generation(RAG)模型,通过集成知识图谱(KG)驱动的推理来增强模型的能力。该模型旨在帮助医疗专业人员基于患者的症状生成诊断和治疗建议,提高诊断的准确性并减少误诊的风险。
关键特性
- 知识图谱增强推理:整合了诊断知识图谱以提高RAG模型的推理能力。
- 准确的诊断支持:为复杂或症状相似的疾病提供具体的诊断见解和个性化的治疗建议。
- 后续问题生成:主动生成相关后续问题,以澄清模糊的患者信息并增强决策。
- 在真实世界和公共数据集上评估:在公共DDXPlus数据集和私有的慢性疼痛诊断数据集(CPDD)上展示了优于现有RAG模型的性能。
数据集详情
- DDXPlus数据集:一个大规模的合成电子健康记录(EHR)数据集,包含复杂的、多样化的医疗诊断案例。
- CPDD数据集:新加坡合作伙伴医院——陈笃生医院提供的慢性疼痛管理私人EHR数据集。
使用说明
- 准备仓库和依赖项:克隆仓库到本地机器并安装
requirements.txt中的依赖。 - 修改令牌:在
authentication.py中替换占位符以使用自己的OpenAI和Hugging Face API令牌。 - 运行
main.py脚本:更新路径和令牌后,运行main.py以启动程序。
实验结果
- MedRAG在多个指标和所有数据集上实现了最佳或次佳性能(只有一个例外)。
- 在不同的LLM基础模型上评估KG驱动的推理,结果表明加入KG推理显著提高了所有基础模型的诊断准确性。
引用
bibtex @inproceedings{zhao2025medrag, title={MedRAG: Enhancing Retrieval-augmented Generation with Knowledge Graph-Elicited Reasoning for Healthcare Copilot}, author={Zhao, Xuejiao and Liu, Siyan and Yang, Su-Yin and Miao, Chunyan}, booktitle={THE WEB CONFERENCE 2025} }
搜集汇总
数据集介绍

构建方式
DDXPlus数据集是通过合成电子健康记录(EHR)数据构建而成,旨在提供复杂且多样化的医疗诊断案例。该数据集涵盖了患者的社人口学信息、潜在疾病、症状和前驱症状等全面信息。与此同时,CPDD数据集则是来源于新加坡Tan Tock Seng医院的私人EHR数据,专注于慢性疼痛管理。两者均通过层级聚合构建疾病知识图谱,捕捉疾病、分类及其表现之间的复杂关系。
特点
DDXPlus数据集以其大规模、合成的EHR数据而闻名,提供了丰富的医疗诊断案例,有助于研究和评估医疗诊断模型的性能。CPDD数据集则提供了实际的慢性疼痛管理案例,具有高度的实用性和针对性。这两个数据集的共同特点是集成了知识图谱增强推理,能够提升诊断的准确性和特异性。
使用方法
使用DDXPlus和CPDD数据集,首先需要从提供的链接中下载完整的数据集。随后,在本地机器上克隆MedRAG仓库并安装必要的依赖。接着,在`authentication.py`文件中替换API令牌,最后运行`main.py`脚本来启动程序。这一流程为研究人员提供了利用这些数据集进行模型训练和评估的基础。
背景与挑战
背景概述
DDXPlus与CPDD数据集是在医学诊断领域具有重要影响力的两个数据集。DDXPlus是一个大规模合成的电子健康记录(EHR)数据集,包含复杂多变的医疗诊断案例,被广泛应用于评估医疗诊断系统的性能。CPDD数据集则来源于新加坡的合作伙伴医院,专用于慢性疼痛管理。这两个数据集为医学诊断模型提供了丰富的真实世界案例,对于提升模型的诊断准确性和决策支持能力具有不可替代的作用。MedRAG模型的开发,旨在通过集成知识图谱推理增强检索增强生成(RAG)模型的能力,特别是在医疗领域。该模型由南洋理工大学与新加坡陈笃生医院合作研发,主要研究人员包括赵雪娇、刘思远、杨素音和苗春燕等。
当前挑战
DDXPlus与CPDD数据集在构建和应用过程中面临的挑战主要包括:1)知识图谱构建的挑战,如何通过层次聚合构建疾病知识图谱,捕捉疾病、类别及其表现之间的复杂关系;2)RAG模型推理的挑战,如何结合电子健康记录检索与诊断知识图谱推理以提升诊断准确性;3)个性化诊断建议的挑战,如何整合多层次信息为医生提供个性化的治疗建议和后续问题。这些挑战对于MedRAG模型在医疗诊断领域的应用至关重要,其解决方案对于提高模型的实用性和临床价值具有重要意义。
常用场景
经典使用场景
在医疗诊断领域,DDXPlus和CPDD数据集被广泛用于评估和提升 Retrieval-Augmented Generation(RAG)模型的表现。尤其是MedRAG模型,它通过集成知识图谱驱动的推理,专门为医疗领域设计,以增强RAG模型在处理患者表现和生成诊断治疗建议方面的能力。
实际应用
在实际应用中,DDXPlus和CPDD数据集的应用有助于医生生成具体的诊断见解和个性化的治疗建议。这些数据集通过支持MedRAG模型的开发,促进了医疗辅助系统的进步,从而在临床决策中起到了重要的辅助作用。
衍生相关工作
基于DDXPlus和CPDD数据集的研究衍生出了多项相关工作,如疾病知识图谱的构建、RAG模型的改进以及个性化诊断建议的生成等。这些研究不仅推动了医疗信息学领域的发展,也为智能医疗系统的构建提供了重要的基础。
以上内容由遇见数据集搜集并总结生成



