ReXGradient-160K
收藏arXiv2025-05-01 更新2025-05-03 收录
下载链接:
https://huggingface.co/datasets/rajpurkarlab/ReXGradient-160K
下载链接
链接失效反馈官方服务:
资源简介:
ReXGradient-160K是一个大规模的公开可用的胸部X光数据集,包含160,000个胸部X光研究,以及来自109,487名患者的配对放射学报告。该数据集是从3个美国医疗系统的79个医疗站点收集的。这个全面的数据集包括每个研究的多张图像和详细的放射学报告,使其特别适合用于开发和评估医学影像的AI系统和自动报告生成模型。数据集分为训练集(140,000个研究)、验证集(10,000个研究)和公开测试集(10,000个研究),并保留了一个额外的私有测试集(10,000个研究)用于在ReXrank基准上评估模型。通过提供这个广泛的数据集,我们旨在加速医学影像AI的研究,并推动自动放射学分析的先进水平。
ReXGradient-160K is a large-scale publicly available chest X-ray dataset comprising 160,000 chest X-ray studies and paired radiology reports from 109,487 unique patients. This dataset was collected from 79 clinical sites across 3 U.S. healthcare systems. This comprehensive dataset includes multiple images per study and detailed radiology reports, making it particularly well-suited for developing and evaluating medical imaging AI systems and automated report generation models. The dataset is split into a training set (140,000 studies), a validation set (10,000 studies), and a public test set (10,000 studies), with an additional private test set (10,000 studies) reserved for evaluating models on the ReXrank benchmark. By releasing this extensive dataset, we aim to accelerate research in medical imaging AI and advance the state-of-the-art in automated radiology analysis.
提供机构:
哈佛医学院生物医学信息学系, 波士顿, 马萨诸塞州, 美国
创建时间:
2025-05-01
搜集汇总
数据集介绍

构建方式
在医学影像分析领域,数据集的构建质量直接影响人工智能模型的性能评估。ReXGradient-160K通过整合美国三大医疗系统的资源,采用严格的多阶段处理流程:原始DICOM格式图像经标准化转换为PNG格式,应用16位深度归一化处理;放射学报告通过GPT-4o进行结构化提取,划分为适应症、对比、发现和印象四个标准段落。数据集构建过程严格遵守HIPAA规范,采用伪匿名化技术处理敏感信息,包括姓名替换、ID加密及日期偏移策略,确保患者纵向数据可比性的同时保护隐私安全。
特点
作为当前规模最大的公开胸部X光数据集,ReXGradient-160K的突出特点体现在多维度优势:包含来自109,487名患者的273,004张影像及对应放射报告,覆盖AP、PA和LAT三种常见拍摄视角。数据分布上呈现均衡的人口统计学特征,40-80岁患者占比50%,性别比例接近1:1。独特的跨机构采集策略使其包含79个医疗站点的数据,大幅提升了模型的泛化评估能力。报告文本采用标准化四段式结构,平均标记数达32个观察项,为影像-文本联合建模提供了丰富语义信息。
使用方法
该数据集通过HuggingFace平台开放访问,采用分级授权管理机制。研究者需签署许可协议后获取按患者ID和检查编号组织的层级目录结构。标准划分方案包含14万训练样本、1万验证集及1万公开测试集,另有1万私有测试集专用于ReXrank基准评估。使用建议包括:利用多视角影像开发三维重建算法,基于结构化报告段落训练分层文本生成模型,或通过跨站点数据验证模型鲁棒性。配套提供的元数据涵盖患者年龄、体重、设备厂商等21个临床相关字段,支持多维度的辅助特征工程。
背景与挑战
背景概述
ReXGradient-160K数据集由哈佛医学院生物医学信息学系与Gradient Health等机构的研究团队于2025年联合发布,是目前规模最大的公开胸部X光影像数据集。该数据集包含来自美国3个医疗系统的160,000例胸部X光检查及对应放射学报告,覆盖109,487名独立患者,旨在解决医学影像AI领域面临的两个核心问题:跨机构数据稀缺导致的模型泛化性不足,以及自动化放射报告生成缺乏标准化评估基准。作为首个多中心大规模胸部X光数据集,其创新性地整合了79个医疗站点的异构数据,为医学影像分析、报告自动生成等任务提供了前所未有的数据支持,显著推动了医疗AI在真实临床环境中的应用进程。
当前挑战
该数据集构建过程中面临三大核心挑战:在医学问题层面,胸部X光影像的病理特征多样性(如肺炎、气胸等数十种病症的共存性表现)要求数据标注具备临床级精确度;在技术实现层面,跨医疗系统的数据异构性(不同厂商设备参数、成像协议差异)需通过复杂的标准化预处理流程解决;在伦理合规层面,HIPAA要求的患者隐私保护涉及像素级脱敏(如DICOM元数据清理)与文本报告伪匿名化(姓名替换、日期偏移)双重技术难题。此外,保持多中心数据的人口统计学平衡(年龄、性别分布)与影像视角一致性(PA/LAT/AP视图比例)也是确保数据集质量的关键挑战。
常用场景
经典使用场景
在医学影像分析领域,ReXGradient-160K数据集因其规模庞大且包含多机构数据而成为研究的热点。该数据集最经典的使用场景是训练和评估自动生成放射学报告的AI模型。通过16万例胸部X光研究及其配对的放射学报告,研究人员能够开发出能够理解复杂医学影像并生成准确、结构化报告的深度学习系统。数据集的多机构来源特性,使其特别适合用于测试模型在不同医疗环境下的泛化能力,这在以往的单一机构数据集中难以实现。
衍生相关工作
ReXGradient-160K数据集已经催生了一系列重要的衍生研究。其中最突出的是ReXrank基准测试平台,它利用数据集的私有测试集对放射学报告生成模型进行标准化评估。此外,多个研究团队基于该数据集开发了新型的多模态医学影像分析架构,如结合视觉和文本信息的Transformer模型。数据集还促进了跨机构协作研究,例如探索联邦学习在保护患者隐私的同时利用多中心数据训练模型的可行性。
数据集最近研究
最新研究方向
在医学影像人工智能领域,ReXGradient-160K数据集的推出为胸部X光影像分析与自动化报告生成研究注入了新的活力。该数据集以其跨机构、大规模的特性,成为评估模型在不同临床环境中泛化能力的理想基准。当前研究热点聚焦于多模态深度学习框架的构建,探索如何有效整合影像特征与自由文本报告之间的复杂关联。与此同时,基于Transformer的生成模型在该数据集上的表现引发了广泛关注,研究者们正致力于提升生成报告的临床准确性与可解释性。这一数据资源的开放不仅推动了医学影像分析技术的边界拓展,也为解决全球范围内放射科专家分布不均的挑战提供了技术储备。
相关研究论文
- 1ReXGradient-160K: A Large-Scale Publicly Available Dataset of Chest Radiographs with Free-text Reports哈佛医学院生物医学信息学系, 波士顿, 马萨诸塞州, 美国 · 2025年
以上内容由遇见数据集搜集并总结生成



