R-Super

Name: R-Super
Creator: 约翰斯·霍普金斯大学
Published: 2025-10-16 23:35:44
License: 暂无描述

arXiv2025-10-16 更新2025-10-18 收录

下载链接：

https://github.com/MrGiovanni/R-Super

下载链接

链接失效反馈

官方服务：

资源简介：

R-Super是一个用于多肿瘤早期检测的人工智能训练数据集，由约翰斯·霍普金斯大学等机构创建。该数据集包含101,654份医学报告，每份报告都与CT扫描图像相关联。这些报告详细描述了肿瘤的大小、数量、位置和衰减等信息，为人工智能模型训练提供了丰富的数据基础。数据集的创建过程包括对报告进行文本分析，提取肿瘤特征，并使用这些特征训练分割模型。R-Super数据集旨在解决多肿瘤分割的难题，尤其在那些缺乏公开肿瘤掩膜的数据集上。

R-Super is an artificial intelligence training dataset for early detection of multiple tumors, created by institutions including Johns Hopkins University. This dataset contains 101,654 medical reports, each paired with CT scan images. These reports elaborate on details such as tumor size, quantity, location and attenuation, providing a rich data foundation for AI model training. The dataset creation workflow includes text analysis of the reports, extraction of tumor features, and training of segmentation models using these features. The R-Super dataset is designed to tackle the challenge of multi-tumor segmentation, especially on datasets with no publicly available tumor masks.

提供机构：

约翰斯·霍普金斯大学

创建时间：

2025-10-16

原始信息汇总

R-Super 数据集概述

数据集简介

R-Super 是一个用于从放射学报告中学习分割的训练策略，通过将放射学报告（文本）转化为直接（逐体素）监督来改进肿瘤分割AI。

核心方法

使用LLM从放射学报告中提取肿瘤信息
引入新的损失函数（Volume Loss & Ball Loss）
使用提取的信息教导AI分割与报告一致的肿瘤（在肿瘤数量、直径和位置方面）

性能提升

与传统仅使用掩码的训练相比，使用R-Super通过掩码和报告进行训练可将肿瘤分割AI的性能提升高达：

敏感性、F1、AUC、DSC和NSD指标提升+16%

公开训练检查点

模型	训练数据	任务	评估	访问地址
R-Super (论文)	16K CTs, AbdomenAtlas 2.0 (公开) & UCSF (私有)	胰腺和肾脏肿瘤分割	MICCAI论文表2	https://huggingface.co/AbdomenAtlas/R-SuperPancreasKidney
R-Super (演示)	14K CTs, PanTS (公开) & Merlin (公开)	胰腺肿瘤分割	演示结果	https://huggingface.co/AbdomenAtlas/R-SuperPanTSMerlin
Baseline (论文，无报告监督)	9K CTs, AbdomenAtlas 2.0 (beta)	胰腺和肾脏肿瘤分割	MICCAI论文表2	https://huggingface.co/AbdomenAtlas/RSuperMaskPretrained
Baseline (演示，无报告监督)	10K CTs, PanTS	胰腺肿瘤分割	演示结果	https://huggingface.co/AbdomenAtlas/MedFormerPanTS

技术特点

可重现性：仅使用公开数据进行训练和评估
可扩展性：可在大型CT-报告数据集（如Merlin）加上小型或大型CT-掩码数据集（如AbdomenAtlas、PanTS）上训练AI
灵活性：支持自定义分割架构和损失函数开发

学术成果

MICCAI 2025最佳论文亚军（在1,027篇论文中排名前2）
相关论文发表于国际医学图像计算和计算机辅助干预会议

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，构建高质量肿瘤分割数据集长期面临标注成本高昂的挑战。R-Super数据集通过创新性地整合101,654对CT影像与放射学报告构建而成，其中包含来自加州大学旧金山分校医疗系统长达28年的85,899例数据及公开Merlin数据集的25,494例数据。该数据集采用基于报告的主动学习策略，首先利用大型语言模型自动提取报告中的肿瘤特征，继而通过循环优化流程：初始阶段仅使用CT-报告对训练模型，随后由31名放射科医师在报告引导下对模型预测最不一致的案例进行校正，最终形成723例经专业校正的肿瘤掩膜，将单例标注时间从30分钟显著缩减至5分钟。

特点

该数据集的核心特征体现在其突破性的规模与多样性。作为迄今最大的CT-报告配对数据集，其覆盖七类缺乏公开标注的肿瘤类型（脾脏、胆囊、前列腺、膀胱、子宫、食管及肾上腺），其中六类肿瘤此前完全缺失公共掩膜数据。数据集包含良性、原发恶性与转移性肿瘤的完整谱系，且同时涵盖静脉期（84%）、动脉期（10%）与非增强（6%）等多种扫描协议。特别值得注意的是，数据分布呈现临床真实性：68%为门诊患者，17%为住院患者，15%来自急诊部门，确保了模型在真实医疗场景中的泛化能力。

使用方法

该数据集通过R-Super训练框架实现高效利用。在训练阶段，首先采用零样本大型语言模型从放射学报告中提取肿瘤数量、直径、位置及衰减特征等结构化信息，并转化为体积损失、球体损失与衰减损失三种新型监督信号。这些损失函数强制模型分割结果与报告描述在肿瘤体积、空间位置及影像特征上保持一致性，同时支持纯CT-报告对训练或与CT-掩膜对的混合训练模式。在推理阶段，模型仅需输入CT影像即可输出肿瘤分割结果，无需依赖报告信息。该方法可适配任何分割架构，在保持推理效率不变的前提下，显著提升对小肿瘤（<2cm）的检测灵敏度达7%，为多器官早期肿瘤筛查提供了可行的技术路径。

背景与挑战

背景概述

R-Super数据集由约翰斯·霍普金斯大学等机构于2025年提出，聚焦于医学影像中多肿瘤早期检测的核心问题。该数据集整合了101,654例CT扫描与对应放射学报告，覆盖脾脏、胆囊、前列腺等七类缺乏公开标注的肿瘤类型。其创新性在于利用临床常规生成的放射学报告作为弱监督信号，突破了传统依赖人工绘制肿瘤掩码的标注瓶颈，为开发可扩展的肿瘤分割模型提供了新范式，对推动癌症早期筛查与多器官肿瘤检测研究具有里程碑意义。

当前挑战

该数据集致力于解决医学影像中多肿瘤分割的领域挑战，尤其在缺乏标注数据的罕见肿瘤类型上表现突出。构建过程中面临双重困难：一是放射学报告与CT影像的语义对齐问题，需通过大语言模型精准提取肿瘤数量、尺寸等特征；二是弱监督训练的技术复杂性，需设计新型损失函数将报告描述转化为体素级监督信号，同时克服标注噪声与器官定位误差对模型性能的干扰。

常用场景

经典使用场景

在医学影像分析领域，R-Super数据集通过整合101,654例CT扫描与对应放射学报告，构建了肿瘤分割任务的新型监督范式。该数据集最经典的应用场景在于训练人工智能模型实现多器官肿瘤的精确分割，特别是在脾脏、胆囊、前列腺等七个缺乏公开标注数据的器官上。通过将放射学报告中描述的肿瘤数量、尺寸、位置及衰减特征转化为监督信号，模型能够在不依赖人工标注掩膜的情况下学习肿瘤分割，为医学影像分析提供了可扩展的解决方案。

衍生相关工作

该数据集催生了基于报告监督的肿瘤分割新范式，启发了多项延伸研究。其核心方法R-Super被扩展应用于胰腺肿瘤分割任务，在最大公开数据集PanTS上实现小肿瘤检测灵敏度提升19%。相关技术还衍生出报告引导的主动学习框架，将标注时间从30分钟缩短至5分钟。此外，该工作推动医学视觉语言模型从生成式任务向分割任务演进，为CT-Mask与CT-Report数据的联合训练建立了标准基准。

数据集最近研究