RadThinking
收藏arXiv2026-05-11 更新2026-05-13 收录
下载链接:
https://huggingface.co/datasets/wenxuanchelsea/RadThinking
下载链接
链接失效反馈官方服务:
资源简介:
RadThinking是由约翰斯·霍普金斯大学等机构构建的一个用于纵向临床推理的放射学视觉问答数据集。该数据集包含20,362个CT扫描,覆盖9,131名患者,涉及43个癌症组和2,077个经随访验证的健康对照,数据来源于10个欧洲机构2012年至2025年的采集。其创建过程遵循严格的标注协议,由放射科医生进行多阶段肿瘤掩码标注,并与去标识化的放射学报告、临床变量及病理学标签配对。该数据集旨在通过分层问题设计(基础感知、单步推理和组合推理)支持人工智能系统在癌症筛查中进行多步骤临床推理,而非仅仅进行肿瘤检测,应用于医学视觉语言模型训练和强化学习验证。
RadThinking is a radiological visual question answering dataset for longitudinal clinical reasoning, constructed by institutions including Johns Hopkins University. This dataset comprises 20,362 CT scans covering 9,131 patients, involving 43 cancer cohorts and 2,077 healthy controls validated through follow-up. The data was collected from 10 European institutions between 2012 and 2025. Its development follows a rigorous annotation protocol, with multi-stage tumor mask annotations performed by radiologists, paired with de-identified radiological reports, clinical variables and pathological labels. This dataset aims to support AI systems in conducting multi-step clinical reasoning for cancer screening via hierarchical question design (basic perception, single-step reasoning and compositional reasoning), rather than merely tumor detection, and is applied to medical vision-language model training and reinforcement learning validation.
提供机构:
约翰斯·霍普金斯大学·计算机科学系; 巴塞尔大学医院·放射学与核医学诊所; 约翰斯·霍普金斯大学·医学院肿瘤学系
创建时间:
2026-05-11
原始信息汇总
根据您提供的README文件内容,该数据集的详细信息非常有限。以下是基于现有信息的总结:
数据集概述
- 数据集名称:未明确给出(根据网站地址推断为
wenxuanchelsea/RadThinking) - 许可证:Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
- 来源:https://huggingface.co/datasets/wenxuanchelsea/RadThinking
由于README文件仅包含许可证信息,没有提供数据集的描述、用途、组成、规模、使用示例等关键内容,因此无法进一步总结数据集的具体细节。如需更完整的信息,建议直接访问数据集页面或查看其他相关文档。
搜集汇总
数据集介绍

构建方式
RadThinking数据集的构建基于肺癌筛查中放射科医师的临床推理过程,将复杂的诊断任务分解为视觉问答对。数据集包含20,362次CT扫描,来自9,131名患者,涵盖43种癌症类型和2,077名健康对照。每个扫描对应一个四步推理链:影像学观察、时间比较、临床背景整合和病理确诊结论。推理链按照临床报告标准(如LI-RADS、Bosniak)组织,将高难度组合型问题拆解为基础型原子问题的序列。数据标注采用三阶段协议:28名放射科住院医师初标、两名主任医师独立审核、第三方仲裁分歧,确保标注质量。
特点
RadThinking的独特性在于其三层难度递增的视觉问答结构。基础层聚焦原子感知能力,如病灶大小、增强模式等简单问题。单步推理层应用单一临床规则,如阈值判断或特征分类。组合层要求多步链式推理,依据临床指南(如LI-RADS-5分类)得出最终诊断。每个组合问题都附有完整的基础问题链,形成可训练的推理路径。数据集覆盖19个器官筛查目标,其中12个器官此前无公开CT肿瘤标注,并包含纵向影像随访(中位随访1.17年),支持时间维度推理评估。
使用方法
RadThinking适用于训练和评估视觉语言模型的癌症筛查推理能力。研究者可使用基础层进行原子视觉技能微调,利用组合层进行链式思维训练。数据集提供四类可验证奖励信号(病理匹配、器官级恶性标志、风险类别和时间变化标签),支持强化学习方法如DeepSeek-R1和OpenAI o1的GRPO训练。评估时建议按VQA难度层级和病例复杂度(感知型、时间型、整合型、模糊型)分层报告准确率,以揭示模型在推理深度上的能力瓶颈。
背景与挑战
背景概述
放射影像学中的癌症筛查本质上是一项推理任务,需要放射科医师在观察影像征象的基础上,对比既往扫描、整合临床背景,最终得出经病理验证的诊断结论。由约翰斯·霍普金斯大学与巴塞尔大学医院的研究人员于2026年联合发布的RadThinking数据集,开创性地将这一临床推理过程显式化为可训练的多层级视觉问答(VQA)任务。该数据集涵盖20,362次CT扫描、9,131名患者、43种癌症类型及2,077名经一年随访验证的健康对照,是首个按照推理深度对问题进行分层、并将组合推理锚定于临床报告标准的癌症筛查VQA语料库,为系统评估人工智能系统的临床推理能力提供了基础性资源。
当前挑战
该数据集所解决的领域挑战在于:现有公开CT数据集将癌症筛查简化为单纯的感知任务——仅提供扫描图像与分割掩码,缺乏纵向追踪轨迹、影像报告及临床变量,模型被优化用于病灶检测而非临床推理,难以处理早期肿瘤诊断中依赖时间对比与临床背景的复杂案例。构建过程中面临的核心挑战包括:①来自十个欧洲机构的异构数据需标准化处理,涵盖影像体积、放射报告及临床变量的多模态对齐;②需对191种器官命名形式进行规范化映射,并基于多源信息(ICD编码、肿瘤关键词、放射报告)通过加权投票机制确定原发癌;③需依据13种临床报告标准(如LI-RADS、PI-RADS)构建结构化推理链,确保组合VQA问题可分解为原子感知问题;④需建立包含八位认证放射科医师的验证体系,以保障特征的准确性及标注的一致性。
常用场景
经典使用场景
RadThinking作为首个面向癌症筛查的视觉问答数据集,其经典使用场景在于为医学影像人工智能提供结构化的推理训练与评估框架。该数据集将放射科医生在解读CT影像时的临床推理过程显式化为三个难度层级的问题:基础感知层级的原子视觉问题、单步推理层级的临床规则应用问题,以及组合推理层级的多步链式思维问题。研究者可利用这一资源系统性地训练视觉语言模型,使其不仅能够识别肿瘤的形态学特征,更能模拟放射科医生将影像观察、时序对比、临床背景整合并最终依据权威报告标准(如LI-RADS、PI-RADS、Bosniak等)得出诊断结论的完整推理链条。这一设计使RadThinking成为连接纯感知任务与临床推理任务的桥梁,为评估人工智能系统是否真正具备癌症推理能力提供了可量化的基准。
衍生相关工作
RadThinking数据集的发布催生了多个重要的衍生研究方向。在方法论层面,该数据集为视觉语言模型提供了一条完整的训练路径,包括基础层的监督微调和组合层的链式思维微调,以及可用于强化学习的可验证奖励信号,这直接启发了DeepSeek-R1和OpenAI o1等推理模型在医学领域的应用探索。在基准评估方面,RadThinking的分层结构为后续的医学视觉问答基准如Med-R1和LLaVA-CoT提供了评估框架参考。在生成模型领域,该数据集与DiffTumor等肿瘤合成工作形成互补,推动了肿瘤合成与推理一体化的研究。此外,其结构化推理链的设计理念也影响了医生评估基准等后续工作,促进了从电子健康记录中提取可解释推理路径的研究方向。
数据集最近研究
最新研究方向
RadThinking数据集的发布标志着癌症筛查领域从单纯的影像感知任务向结构化临床推理训练的范式转变。该数据集通过构建分层视觉问答体系,将放射科医生的推理过程显式分解为基础感知、单步推理和组合式多步推理三个难度层级,并首次将LI-RADS、PI-RADS等临床报告标准作为组合式推理的语法规则。这一前沿方向与当前大语言模型在医疗领域应用的热点事件紧密相关,特别是DeepSeek-R1和OpenAI o1等强化学习方法对可验证奖励信号的需求。RadThinking通过提供病理验证的推理链数据和四维奖励信号,使得AI系统能够系统性地学习并评估癌症推理能力,而非仅进行病灶检测。该数据集覆盖43种癌症类型、20,362次CT扫描,填补了现有公开数据集中纵向临床推理资源的空白,对推动可解释、可验证的医疗AI发展具有里程碑意义。
相关研究论文
- 1RadThinking: A Dataset for Longitudinal Clinical Reasoning in Radiology约翰斯·霍普金斯大学·计算机科学系; 巴塞尔大学医院·放射学与核医学诊所; 约翰斯·霍普金斯大学·医学院肿瘤学系 · 2026年
以上内容由遇见数据集搜集并总结生成



