five

rajpurkarlab/CXR-PRO

收藏
Hugging Face2022-11-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/rajpurkarlab/CXR-PRO
下载链接
链接失效反馈
官方服务:
资源简介:
CXR-PRO contains the following files: ``` . ├── cxr.h5 ├── mimic_train_impressions.csv └── mimic_test_impressions.csv ``` The contents of each file are outlined below: `cxr.h5`: The subset of MIMIC-CXR chest radiographs used for MIMIC-PRO, saved in Hierarchical Data Format (HDF). `mimic_train_impressions.csv`: A compilation of the impressions section of each radiology report in the MIMIC-PRO dataset, with references to priors removed. Additional fields include `dicom_id`, `study_id`, and `subject_id` (which refer users to the chest radiograph associated with a given impressions section). `mimic_test_impressions.csv`: The expert-edited test set, as described in the Methods section of MIMIC-PRO's documentation on PhysioNet.

CXR-PRO 数据集包含以下文件: . ├── cxr.h5 ├── mimic_train_impressions.csv └── mimic_test_impressions.csv 各文件的内容说明如下: `cxr.h5`:用于MIMIC-PRO的MIMIC-CXR胸部X光影像子集,以分层数据格式(Hierarchical Data Format,HDF)存储。 `mimic_train_impressions.csv`:该文件汇集了MIMIC-PRO数据集中每份放射学报告的印象部分,已移除其中对既往报告的引用内容。额外包含的字段有`dicom_id`、`study_id`和`subject_id`,用于帮助使用者将给定的印象部分与对应的胸部X光影像进行关联。 `mimic_test_impressions.csv`:该文件为经专家编辑的测试集,具体说明可参考MIMIC-PRO在PhysioNet平台上的文档的方法学章节。
提供机构:
rajpurkarlab
原始信息汇总

CXR-PRO数据集概述

数据集文件组成

CXR-PRO数据集包含以下文件:

  1. cxr.h5

    • 描述:MIMIC-CXR胸部X光片的子集,用于MIMIC-PRO,保存为Hierarchical Data Format (HDF)。
  2. mimic_train_impressions.csv

    • 描述:MIMIC-PRO数据集中每份放射学报告的印象部分汇编,已移除对先前报告的引用。包含字段:dicom_id, study_id, subject_id,这些字段指向与特定印象部分相关的胸部X光片。
  3. mimic_test_impressions.csv

    • 描述:专家编辑的测试集,详细描述见MIMIC-PRO文档的Methods部分。
搜集汇总
数据集介绍
main_image_url
构建方式
CXR-PRO数据集源自MIMIC-CXR数据库,精选其中一部分胸部X光影像以分层数据格式(HDF)存储于cxr.h5文件中。同时,数据集整理了相应放射学报告中的“印象”部分,去除既往病史引用后,形成mimic_train_impressions.csv训练集文件。测试集mimic_test_impressions.csv则经由专家精心编辑,确保其标注质量,从而构建出一个用于胸部X光报告生成与评估的专用资源。
使用方法
使用CXR-PRO时,研究者可通过HDF5接口加载cxr.h5中的影像数据,并利用pandas等库读取CSV文件中的印象文本。通过匹配dicom_id等字段,可建立影像与报告的一一对应关系。该数据集适用于训练图像到文本的生成模型,如基于注意力机制的编码器-解码器架构,也可用于评估模型在胸部X光报告生成任务上的性能,尤其适合作为基准测试集进行对比研究。
背景与挑战
背景概述
CXR-PRO数据集由Rajpurkar实验室于近年创建,旨在推动胸部X光影像报告生成领域的研究。该数据集基于MIMIC-CXR数据库,提取了放射学报告中关键的“印象”部分,并移除了对先前影像的引用,从而构建了一个专注于当前影像解读的标准化语料库。其核心研究问题在于如何利用深度学习模型自动生成准确、连贯的放射学印象,以辅助临床决策。通过提供与影像直接关联的文本数据,CXR-PRO为自然语言处理与医学影像分析的交叉研究树立了标杆,显著促进了报告生成模型的评估与优化,对医学影像智能解读领域产生了重要影响。
当前挑战
CXR-PRO所面对的挑战首先源于领域问题的复杂性:胸部X光影像报告生成不仅需要精准识别多种病理特征,如肺结节、心脏肥大等,还需生成逻辑严谨、符合医学规范的文本描述,这对模型的视觉理解与语言生成能力提出了双重考验。此外,构建过程中面临数据标注的挑战,原始报告中的“印象”部分常包含主观表述或冗余信息,专家需耗费大量精力进行清洗与标准化,如移除对历史影像的引用以确保文本聚焦于当前影像。同时,数据集的规模相对有限,且来源于单一医疗系统(MIMIC-CXR),可能导致模型泛化能力不足,在跨机构或跨人群场景下表现欠佳。
常用场景
经典使用场景
CXR-PRO数据集在医学影像与自然语言处理交叉领域扮演着关键角色,其经典使用场景集中于胸部X光影像与放射学报告印象部分的联合建模。研究者可借助该数据集,将影像特征与文本描述进行对齐,训练多模态模型以自动生成或检索与影像匹配的临床印象,从而推动智能诊断辅助系统的构建。
解决学术问题
该数据集有效解决了放射学报告自动化生成中印象部分与影像关联性不足的学术难题。通过提供专家编辑的测试集和去除了先前参考的标准化印象文本,CXR-PRO为评估模型在临床语境下的准确性提供了可靠基准,显著推进了医学报告摘要生成、跨模态表征学习等研究方向的发展。
实际应用
在实际应用中,CXR-PRO支撑了临床决策支持系统的开发,帮助放射科医生快速获取影像对应的结构化印象摘要,减少报告撰写时间并降低人为疏漏。此外,它还可用于医学教育中的影像解读训练,以及自动化质控流程中的报告一致性校验,提升医疗服务的效率与安全。
数据集最近研究
最新研究方向
在医学影像与自然语言处理的交叉领域,CXR-PRO数据集聚焦于胸部X光片与其放射学报告印象部分的深度对齐与语义解析。当前前沿研究方向集中于利用该数据集训练多模态模型,以自动化生成结构化的影像描述,并推动临床决策支持系统的智能化升级。随着大型语言模型在医疗文本生成中的突破,CXR-PRO为评估模型在去除先验信息后的印象部分生成能力提供了标准化基准,其专家编辑的测试集尤为关键,可用于验证模型在真实临床场景中的鲁棒性与可靠性。该数据集的出现填补了高质量、去偏的胸部X光报告标注资源的空白,对推动可解释性AI在放射学中的应用、降低误诊率具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作