five

RadFusion

收藏
arXiv2021-11-27 更新2024-06-21 收录
下载链接:
https://stanfordaimi.azurewebsites.net/datasets/3a7548a4-8f65-4ab7-85fa-3d68c9efc1bd
下载链接
链接失效反馈
官方服务:
资源简介:
RadFusion是一个大规模的多模态肺栓塞数据库,包含1837名患者的CT影像研究及其对应的电子健康记录(EHR)数据,旨在通过结合3D医学影像数据和患者EHR数据,推动未来多模态融合策略的研究。该数据集通过分层随机抽样从原始的108,991项研究中精心筛选而出,确保了数据的高质量和代表性。数据集的应用领域包括构建更好的临床决策模型以检测肺栓塞,以及开发结合CT扫描和患者EHR的多模态融合模型,这些在医学AI领域相对未被充分探索,但对实际临床环境中的医学影像解读至关重要。

RadFusion is a large-scale multimodal pulmonary embolism database containing CT imaging studies and corresponding electronic health record (EHR) data from 1837 patients. It aims to advance research on future multimodal fusion strategies by integrating 3D medical imaging data and patient EHR data. The dataset was meticulously screened from the original 108,991 studies via stratified random sampling, ensuring high data quality and representativeness. Its application areas include constructing more robust clinical decision-making models for pulmonary embolism detection, as well as developing multimodal fusion models that combine CT scans and patient EHR data. These areas are relatively under-explored in the field of medical AI, yet are critically important for medical image interpretation in real-world clinical scenarios.
提供机构:
斯坦福大学
创建时间:
2021-11-23
搜集汇总
数据集介绍
main_image_url
构建方式
RadFusion数据集的构建基于斯坦福大学医学中心的108,991例CT肺动脉造影(CTPA)研究,时间跨度为2000年至2016年。通过自然语言处理模型对放射学报告进行伪标签生成,筛选出2500例1.25毫米轴向CT图像,经过放射科医生的手动审查和标注,最终保留了1837例高质量研究。每例研究均包含高分辨率CT图像和患者电子健康记录(EHR)数据,涵盖12个月内的临床信息。数据集通过分层随机抽样分为训练集、验证集和测试集,确保数据分布的代表性和平衡性。
特点
RadFusion数据集的特点在于其多模态性,结合了高分辨率CT图像和丰富的EHR数据,涵盖患者的人口统计学、生命体征、药物使用、实验室结果等多维度信息。数据集的标注由两名资深放射科医生独立完成,确保了标签的高可靠性。此外,数据集还提供了对不同患者亚组(如性别、种族、年龄)的公平性评估,为研究模型在不同人群中的表现提供了重要依据。RadFusion是首个公开结合3D医学影像与纵向EHR数据的肺栓塞检测数据集,填补了多模态医学数据集的空白。
使用方法
RadFusion数据集可用于多模态融合模型的开发与评估,支持基于CT图像和EHR数据的肺栓塞检测研究。研究者可以通过对比单一模态(仅CT或仅EHR)与多模态融合模型的性能,探索不同模态对诊断效果的贡献。此外,数据集提供了详细的公平性评估框架,支持对模型在不同患者亚组(如性别、种族、年龄)中的表现进行分析,帮助研究者设计更具公平性和鲁棒性的算法。数据集的分割和标注信息已公开,便于研究者直接用于模型训练和验证。
背景与挑战
背景概述
RadFusion数据集由斯坦福大学的研究团队于2021年提出,旨在解决医学影像与电子健康记录(EHR)数据融合的挑战。该数据集包含1794名患者的高分辨率CT扫描和相应的EHR数据,专门用于肺栓塞(PE)的检测。肺栓塞是一种危及生命的疾病,早期诊断对患者的生存至关重要。然而,现有的深度学习模型大多仅依赖于影像数据,忽略了临床背景信息,可能导致模型偏差。RadFusion的发布填补了这一空白,推动了多模态医学影像研究的发展,并为公平性评估提供了重要基准。
当前挑战
RadFusion数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,肺栓塞的诊断依赖于影像和临床数据的结合,但现有模型往往仅基于单一模态,导致诊断准确性和鲁棒性不足。其次,在数据构建过程中,研究者需要从超过10万份CT扫描中筛选高质量数据,并确保EHR数据的完整性和隐私保护。此外,数据集中不同人口统计学群体的不平衡性可能影响模型公平性评估的准确性。这些挑战要求未来的研究在数据融合、模型设计和公平性优化方面进行更深入的探索。
常用场景
经典使用场景
RadFusion数据集在医学影像与电子健康记录(EHR)的多模态融合研究中具有重要应用。该数据集通过结合高分辨率CT扫描和患者的EHR数据,为肺栓塞(PE)的检测提供了丰富的多模态信息。研究人员可以利用RadFusion数据集开发多模态融合模型,探索影像数据与临床数据的协同作用,从而提升诊断的准确性和鲁棒性。
实际应用
在实际临床应用中,RadFusion数据集为肺栓塞的早期诊断和治疗提供了重要支持。通过结合CT影像和EHR数据,医生可以更全面地评估患者的病情,减少误诊和延迟诊断的风险。此外,该数据集还为开发公平且鲁棒的AI辅助诊断工具提供了基础,有助于减少不同性别、种族和年龄群体之间的诊断差异。
衍生相关工作
RadFusion数据集推动了多模态医学影像研究的发展,衍生出多项经典工作。例如,基于该数据集的研究提出了多种多模态融合策略,如早期融合、晚期融合和联合融合,这些方法在肺栓塞检测中表现出显著优势。此外,RadFusion还为公平性研究提供了重要数据支持,推动了医疗AI模型在性别、种族和年龄等敏感属性上的公平性评估与改进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作