RSNA LLM Benchmark Dataset for Chest Radiographs of Cardiothoracic Disease (REVEAL-CXR)

arXiv2026-01-22 更新2026-01-23 收录

下载链接：

https://imaging.rsna.org

下载链接

链接失效反馈

官方服务：

资源简介：

REVEAL-CXR是由北美放射学会联合全球10个机构的17位心胸放射专家构建的胸部X光诊断基准数据集，包含200例经三重专家验证的DICOM格式影像（100例公开），涵盖12种心胸异常标签如肺实变、气胸等。数据源自MIDRC注册的13,735例临床影像，通过GPT-4o和Phi-4-Reasoning模型辅助提取报告特征，并采用分层抽样确保罕见病与多病症案例的覆盖。该数据集旨在解决现有放射学数据缺乏专家直接图像标注的问题，为评估多模态大语言模型的临床诊断能力提供黄金标准，特别关注复杂病例和罕见病种的模型性能验证。

REVEAL-CXR is a chest X-ray diagnostic benchmark dataset developed by the Radiological Society of North America (RSNA) in collaboration with 17 cardiothoracic radiologists from 10 global institutions. It consists of 200 DICOM-format imaging studies triple-validated by experts, 100 of which are publicly available. The dataset encompasses 12 cardiothoracic abnormality annotation labels, including pulmonary consolidation, pneumothorax, and other thoracic pathologies. Derived from 13,735 clinical imaging cases registered in the MIDRC registry, report features were extracted with the assistance of GPT-4o and Phi-4-Reasoning models, and stratified sampling was employed to ensure adequate coverage of rare disease cases and multi-morbidity presentations. This dataset aims to address the critical gap that existing radiological datasets lack direct expert-provided image annotations, serving as a gold standard benchmark for evaluating the clinical diagnostic capabilities of multimodal large language models (LLMs), with a particular focus on validating model performance on complex clinical cases and rare disease entities.

提供机构：

威尔康奈尔医学院·放射学系; 托马斯杰斐逊大学·放射学系; 多伦多大学·圣迈克尔医院/Unity Health Toronto医学影像系; 加州大学旧金山分校·放射学与生物医学影像系; 俄亥俄州立大学韦克斯纳医学中心·放射学系; 克利夫兰诊所基金会·诊断研究所; 以色列医院Albert Einstein; 北美放射学会; 哈佛医学院·布里格姆妇女医院放射学系; 宾夕法尼亚大学佩雷尔曼医学院·放射学系; 慕尼黑工业大学·诊断与介入放射学系; 约翰霍普金斯大学医学院·放射学系; 多伦多大学医学院·三一健康伙伴医学影像系; 西安大略大学·圣约瑟夫医疗保健伦敦; 埃默里大学医学院·放射学与影像科学系; 德克萨斯大学西南医学中心·放射学系

创建时间：

2026-01-22

搜集汇总

数据集介绍

构建方式

在医学影像人工智能领域，高质量标注数据集的构建是推动多模态大语言模型临床评估的关键。REVEAL-CXR数据集的构建始于医学影像与数据资源中心提供的13,735例去标识化胸部X光片及对应报告。研究团队首先采用GPT-4o从放射学报告中提取异常发现，随后通过本地部署的Phi-4-Reasoning模型将这些发现映射到预先定义的12个基准标签。通过分层抽样算法从这些研究中筛选出1,000例具有临床代表性且涵盖不同难度层次的影像，由来自4个国家10个机构的17位心胸放射科专家进行独立评审。每位专家在基于PACS系统的网络标注平台上，针对大语言模型建议的标签选择“完全同意”、“基本同意”或“不同意”的评估意见，每例影像均由三位专家背对背评审。最终仅保留至少获得两位专家“完全同意”评级的381例影像，并优先选择包含罕见或多重发现的病例，形成各100例的公开数据集与保留测试集。

特点

该数据集在医学影像基准数据领域展现出多重创新特征。其核心价值在于建立了首个由多国心胸放射科专家直接基于影像解读进行标注的胸部X光基准数据集，突破了传统数据依赖报告自然语言处理的局限。数据集完整保留原始DICOM格式影像，避免了JPEG/PNG格式转换导致的信息损失。标注体系涵盖气腔混浊、动脉瘤、心脏肥大等12种临床常见心胸异常，每例影像可包含多个标签，真实反映临床复杂情况。特别值得关注的是，数据集中罕见病变与多重异常病例的比例经过精心设计，为模型评估提供了更具挑战性的测试样本。专家间标注一致性分析显示，除气腔混浊外，多数病变的科恩卡帕系数超过0.75，体现了标注结果的专业可靠性。

使用方法

该数据集为多模态大语言模型在胸部影像诊断领域的性能评估提供了标准化测试框架。研究人员可通过公开的100例数据集进行模型训练与验证，利用保留的100例测试集进行独立性能评估。数据集提供的DICOM格式影像支持完整的医学影像分析流程，包括窗宽窗位调整、测量标注等临床常用操作。使用时应遵循数据集中标注的12类异常标准定义，注意每例影像可能存在的多重标签特性。评估指标可参考专家间一致性分析采用的科恩卡帕系数，特别关注模型在气腔混浊等专家分歧较大病变上的表现差异。数据集配套的AI辅助标注流程也为大规模医学影像标注工作提供了可借鉴的方法学框架，支持未来其他影像模态基准数据集的构建。

背景与挑战

背景概述

在医学影像与人工智能融合的浪潮中，多模态大语言模型展现出辅助诊断的潜力，但其临床效能的精准评估亟需高质量的专业基准。为此，北美放射学会（RSNA）人工智能委员会于2024年主导构建了REVEAL-CXR数据集，旨在为胸部X光片的心胸疾病检测提供专家验证的评估基准。该数据集由来自4个国家10个机构的17位心胸放射科专家共同标注，核心研究聚焦于通过AI辅助流程，高效生成涵盖12类常见心胸异常的高质量标签，以弥合现有数据集中影像直接解读与报告文本提取之间的鸿沟。这一基准的建立，为多模态大语言模型在真实临床场景下的性能评估提供了关键工具，推动了放射学AI向可解释、可验证的临床应用迈进。

当前挑战

REVEAL-CXR数据集致力于解决胸部X光影像中多疾病检测与诊断的复杂挑战，其核心在于评估模型对重叠征象、细微病变及罕见异常（如膈疝、淋巴结病）的识别与区分能力。在构建过程中，研究团队面临多重挑战：首先，初始标签生成依赖于大语言模型从放射报告中提取异常发现，但报告文本与影像表现之间存在语义鸿沟，可能导致映射偏差；其次，确保专家标注的一致性尤为困难，尤其对于‘气腔不透明’等主观性较强的征象，其专家间一致性较低（κ=0.484），反映了临床诊断固有的模糊性。此外，数据采样需平衡常见病与罕见病的代表性，同时维持影像原始DICOM格式以避免信息损失，这些因素共同构成了数据集构建的技术与临床双重挑战。

常用场景

经典使用场景

在医学影像人工智能领域，REVEAL-CXR数据集为多模态大语言模型在胸部X光片上的性能评估提供了标准化基准。该数据集通过整合17位心胸放射科专家的标注，构建了一个包含12种心胸疾病标签的精选集合，涵盖了从常见病变如气腔不透明到罕见病症如膈疝等多种情况。其经典应用场景在于为研究者提供了一个可靠平台，用以测试和比较不同模型在复杂真实世界影像中的异常检测能力，尤其侧重于模型对多疾病共存病例的识别准确性。

衍生相关工作

围绕REVEAL-CXR数据集，已衍生出一系列聚焦于多模态大语言模型在放射学中应用的经典研究工作。这些工作主要探索如何将视觉与文本信息深度融合，以提升模型对胸部疾病的诊断解释能力。例如，有研究利用该数据集的专家标签优化模型对细微影像特征的捕捉，开发出能够生成影像描述与鉴别诊断的端到端系统。同时，其标注方法论启发了其他医学影像模态（如CT、MRI）的基准构建，推动了跨机构协作标注范式的标准化，为后续更大规模、多疾病类别的基准数据集开发奠定了理论与实践基础。

数据集最近研究