MIMIC-SR-ICD11
收藏arXiv2025-11-08 更新2025-11-11 收录
下载链接:
https://github.com/woqingdoua/MIMIC-SR-ICD11
下载链接
链接失效反馈官方服务:
资源简介:
MIMIC-SR-ICD11是一个基于英文的、大规模的诊断数据集,由电子健康记录(EHR)出院记录构建,并使用世界卫生组织ICD-11术语进行标准化。数据集由孟菲斯大学研究人员创建,旨在解决现有数据集在疾病诊断方面存在的局限性,例如缺乏对细微症状的描述和无法适应新的症状或疾病。该数据集通过将EHR记录转换为患者自述报告,并使用ChatGPT模型进行语言生成,从而保留了临床上有意义的细节信息。MIMIC-SR-ICD11数据集在疾病诊断、患者自述报告生成等方面具有广泛的应用前景,有助于提高疾病诊断的准确性和效率。
MIMIC-SR-ICD11 is an English-based large-scale diagnostic dataset constructed from electronic health record (EHR) discharge records, and standardized using the World Health Organization's ICD-11 terminology. Developed by researchers at the University of Memphis, this dataset was created to address the limitations of existing datasets in disease diagnosis, such as the lack of detailed descriptions for subtle symptoms and inability to adapt to new symptoms or diseases. By converting EHR records into patient self-reported accounts and leveraging the ChatGPT model for language generation, it preserves clinically meaningful detailed information. The MIMIC-SR-ICD11 dataset has broad application prospects in fields including disease diagnosis and patient self-reported report generation, and helps improve the accuracy and efficiency of disease diagnosis.
提供机构:
美国孟菲斯大学
创建时间:
2025-11-08
原始信息汇总
MIMIC-SR-ICD11数据集概述
数据集基本信息
- 数据集名称:MIMIC-SR-ICD11
- 作者:Yuexin Wu(孟菲斯大学)、Shiqi Wang(广州中医药大学)、Vasile Rus(孟菲斯大学)
- 发表会议:Findings of ML4H 2025
- 论文标题:MIMIC-SR-ICD11: A Dataset for Narrative-Based Diagnosis
数据集描述
MIMIC-SR-ICD11是一个大规模英语诊断数据集,将来自MIMIC-IV的去标识化电子健康记录出院记录转换为患者自述报告,并使用WHO ICD-11本体标准化诊断。该数据集连接临床文档和真实世界患者叙述,支持基于自然语言症状描述而非分类检查表的诊断推理。
核心特征
- 输入模拟首次接触症状叙述(患者自述报告)
- 标签原生对齐ICD-11,减少歧义和后处理映射
- 专为全文诊断推理和实际下游部署设计(分诊工具、助手、对话代理)
数据集构建方法
- 左分支:通过CMS GEMs将MIMIC-IV主要诊断从ICD-9映射到ICD-10,再通过WHO表格映射到ICD-11,并进行一对一过滤和人工整理
- 右分支:使用指令调优提示将MIMIC-IV-Note重写为第一人称自述报告,排除仅限临床医生内容
LL-Rank重排框架
引入基于似然的重排框架LL-Rank,通过从条件似然中减去无报告先验来减少头部类别偏差:
- 条件项$L_{ ext{cond}}$:给定报告$x$下标签$c$的每标记负对数似然
- 先验项$L_{ ext{prior}}$:无报告情况下相同提示下$c$的每标记负对数似然
- 效果:将语义兼容性与标签频率分离,改善校准和长尾性能
实验结果
在七个医学骨干模型上,LL-Rank持续优于生成+映射基线:
- Hit@3/5/10:平均增益约+80%/+86%/+93%
- Macro-F1@3/5/10:平均增益约+138%/+147%/+157%
- 性能在$alpha approx 1$时达到峰值
基线模型
医学大语言模型
- MedAlpaca (7B)、MMed-LLaMA (8B)、MedGEMMA (3B)、AlphaMed (3B/7B)、MedFound (7B/8B)
- 基于LLaMA v1/3、Gemma-3、Qwen2、BLOOM
- 使用监督微调训练目标
通用大语言模型
- Gemini 2.5 Flash、Claude 4 Sonnet、ChatGPT (o3)、ChatGPT (GPT-5)
- 基于专有模型
- 使用零样本评估
引用格式
bibtex @inproceedings{wu2025mimicsricd11, title = {MIMIC-SR-ICD11: A Dataset for Narrative-Based Diagnosis}, author = {Wu, Yuexin and Wang, Shiqi and Rus, Vasile}, booktitle = {Findings of Machine Learning for Health (ML4H)}, year = {2025}, url = {https://github.com/woqingdoua/MIMIC-SR-ICD11} }
联系方式
Yuexin Wu · ywu10@memphis.edu
搜集汇总
数据集介绍

构建方式
在临床自然语言处理领域,构建高质量的诊断数据集对推动智能医疗发展至关重要。MIMIC-SR-ICD11数据集基于MIMIC-IV和MIMIC-IV-Note两大权威医疗数据库,采用双阶段构建流程:首先通过美国医疗保险与医疗补助服务中心的官方映射表将ICD-9和ICD-10诊断代码精确转换为WHO ICD-11标准术语,保留一对一映射关系确保语义精确性;随后利用大型语言模型将电子健康记录中的临床笔记转化为第一人称患者自述,通过精心设计的提示指令过滤医疗专业评估内容,仅保留患者主观症状描述,形成符合真实就诊场景的叙事文本。
特点
该数据集在临床诊断数据资源中展现出独特价值,其核心特征体现在多维度创新。数据集包含119,178条患者自述与ICD-11诊断标签的配对样本,覆盖118种疾病类别,实现了从专科到全科的广泛疾病谱系覆盖。数据采用原生ICD-11术语体系,避免了后期映射带来的语义偏差,确保诊断标签的标准化与国际化。患者自述文本平均长度153个标记,包含7个完整句子,词汇多样性达68.06%,既保持临床信息的丰富性,又符合真实患者叙事风格。文本内容严格限定于患者主观症状描述,排除医疗检查结果等专业内容,为模型训练提供了高度拟真的输入分布。
使用方法
在临床应用场景中,该数据集支持多种诊断推理模式的开发与评估。研究者可采用监督微调结合LoRA适配器的方法,在医疗领域大语言模型基础上进行参数高效微调,构建诊断预测系统。数据集配套的LL-Rank重排序框架通过计算条件似然与先验似然的点互信息得分,有效平衡文本证据与标签频率偏差,提升罕见疾病诊断性能。评估时可采用Top-k命中率和宏F1分数等指标,全面衡量模型在常见病与罕见病上的诊断能力。数据集还可用于分诊优化和检查规划等实际医疗场景,通过动态生成鉴别诊断清单辅助临床决策流程。
背景与挑战
背景概述
MIMIC-SR-ICD11数据集由孟菲斯大学与广州中医药大学研究人员于2025年联合创建,旨在推动基于患者自述的临床诊断研究。该数据集从MIMIC-IV电子健康记录中提取出院摘要,通过大语言模型转换为第一人称症状描述,并采用世界卫生组织ICD-11术语进行标准化标注。其核心价值在于弥合结构化医疗数据与真实患者叙事之间的鸿沟,为自然语言处理模型提供更符合临床实际场景的训练资源,显著提升了诊断推理任务与真实医疗工作流的契合度。
当前挑战
该数据集主要应对两大挑战:在领域问题层面,需解决患者自由叙述中存在的语义模糊性、多症状交织及临床细节丢失等问题,传统分类模型难以捕捉如疼痛放射模式等关键特征;在构建过程中,面临ICD编码体系跨版本映射的语义一致性难题,需通过人工审核确保诊断概念的精准对齐,同时需平衡大语言模型生成内容与原始病历的临床忠实度,避免引入合成偏差。
常用场景
经典使用场景
在临床自然语言处理领域,该数据集最经典的应用场景是训练和评估基于患者自述症状的自动诊断模型。通过将电子健康记录中的出院小结转化为第一人称患者自述,该数据集为模型提供了真实世界中患者描述症状的自然语言表达方式,使模型能够学习从非结构化文本中识别疾病模式。这种基于叙事的诊断方法更贴近实际临床场景,有助于提升模型在真实医疗环境中的泛化能力。
实际应用
在实际医疗场景中,该数据集支撑的模型可应用于在线分诊系统和远程医疗平台。通过分析患者输入的症状描述,系统能够提供初步诊断建议,帮助医疗资源有限地区的患者获得及时指导。在急诊分诊中,该系统可识别高风险病例并优先处理,同时为基层医生提供诊断决策支持,有效提升医疗服务的效率和质量。
衍生相关工作
基于该数据集衍生的经典工作包括LL-Rank重排序框架,该框架通过点互信息评分机制平衡文本证据与标签先验分布,显著提升了诊断预测的准确性。该数据集还启发了多项医疗大语言模型的研究,如MedAlpaca、MedGEMMA等模型的优化工作,推动了临床自然语言处理领域在症状推理、疾病预测等方向的技术进步。
以上内容由遇见数据集搜集并总结生成



