five

ConfiDx

收藏
arXiv2025-05-06 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.03467v1
下载链接
链接失效反馈
官方服务:
资源简介:
ConfiDx 是一个由明尼苏达大学计算健康科学部创建的疾病诊断数据集。该数据集包含来自 MIMIC-IV 和 UMN-CDR 数据库的 24884 条临床笔记,涵盖了内分泌、心脏病学和肝病学三个专科。数据集包含各种程度的诊断模糊性,并经过精心注释。ConfiDx 的创建旨在解决临床决策中诊断不确定性的问题,通过提供准确的诊断和解释,以提高自动诊断系统的可靠性。
提供机构:
明尼苏达大学计算健康科学部,外科部,明尼阿波利斯,MN,美国
创建时间:
2025-05-06
搜集汇总
数据集介绍
main_image_url
构建方式
ConfiDx数据集的构建基于真实世界的临床记录,主要来源于MIMIC-IV和UMN-CDR数据库。研究团队通过多智能体框架对临床记录进行注释,随后由医学专家进行验证。注释过程基于手动整理的诊断标准,确保数据集能够捕捉不同程度的诊断模糊性。此外,为了评估模型在未见疾病类型上的鲁棒性,团队还创建了一个独立的测试集MIMIC-U,其中包含从MIMIC-IV中保留的某些疾病类型。
特点
ConfiDx数据集的特点在于其丰富的注释信息,能够捕捉诊断过程中的不确定性。数据集包含来自内分泌学、心脏病学和肝脏病学三个临床专业的记录,这些专业在美国的死亡率中具有重要影响。数据集中既有证据完整的病例,也有模拟临床信息不完整的病例,以评估模型在不同情境下的表现。此外,数据集还提供了详细的诊断解释和不确定性解释,为模型的训练和评估提供了全面的支持。
使用方法
ConfiDx数据集的使用方法主要包括四个子任务:疾病诊断、诊断解释、不确定性识别和不确定性解释。研究人员可以通过微调开源大型语言模型(如LLaMA)来利用该数据集进行训练和评估。数据集被随机分为训练集、验证集和测试集,比例为7:1:2,以确保模型的泛化能力。此外,数据集还支持自动评估指标(如诊断准确性和解释准确性)和人工评估(如解释的正确性和完整性),以全面评估模型的性能。
背景与挑战
背景概述
ConfiDx数据集由明尼苏达大学计算健康科学团队于2024年提出,旨在解决临床诊断中不确定性识别与解释的关键问题。该数据集基于MIMIC-IV和UMN-CDR电子健康记录构建,涵盖内分泌学、心脏病学和肝病学三大专科领域,包含24,367份临床笔记和12种疾病类型。其创新性在于首次将诊断标准与不确定性量化相结合,通过多智能体标注框架实现了证据完整性分级,为开发可解释的AI诊断系统提供了重要基准。该研究发表在Nature系列期刊,标志着LLM在医疗不确定性建模领域的重大突破。
当前挑战
构建ConfiDx面临双重挑战:在领域问题层面,临床笔记常存在信息缺失(如48%急诊病例缺乏关键体征记录),导致传统模型难以区分确诊与不确定案例;在技术实现层面,需解决LLM过度自信倾向与诊断标准对齐难题。具体表现为:1)需设计新型标注协议来量化13.6%初级诊疗案例中的证据不足现象;2)需开发多任务学习框架同步优化诊断准确率(提升68.3%)与不确定性识别(AUROC达0.658);3)需克服跨机构数据差异(UMN-CDR笔记长度较MIMIC短41.8%)带来的泛化性问题。
常用场景
经典使用场景
ConfiDx数据集在医学诊断领域具有广泛的应用价值,特别是在解释性诊断和诊断不确定性识别方面。该数据集通过整合真实世界的临床笔记和诊断标准,为研究人员提供了丰富的标注数据,用于训练和评估不确定性感知的大型语言模型(LLMs)。其经典使用场景包括基于证据的诊断预测、诊断不确定性的识别与解释,以及跨机构模型的泛化能力测试。
解决学术问题
ConfiDx数据集解决了医学诊断领域中几个关键的学术问题。首先,它填补了诊断不确定性识别和解释的研究空白,通过标注不同诊断模糊度的病例,帮助模型识别证据不足的情况。其次,数据集通过整合诊断标准,提升了模型在复杂临床场景中的解释能力,增强了诊断系统的可信度。此外,数据集还支持模型在未见疾病类型和跨机构数据上的鲁棒性评估,推动了医学人工智能的实用化进程。
衍生相关工作
ConfiDx数据集衍生了一系列相关研究工作。例如,基于该数据集的不确定性识别方法被扩展至其他医学领域,如精神科和急诊医学。其标注框架也被用于开发多智能体标注系统,提升医学数据标注的效率。此外,数据集支持的诊断解释生成技术启发了后续研究,如结合检索增强生成(RAG)的医学信息提取系统。这些工作进一步推动了医学人工智能在可信度和实用性方面的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作