RXL-RADSet

arXiv2026-01-07 更新2026-01-08 收录

下载链接：

https://github.com/RadioX-Labs/RADSet

下载链接

链接失效反馈

官方服务：

资源简介：

RXL-RADSet是由印度医学教育与研究研究生院等11家机构联合开发的合成放射学报告数据集，包含1600份覆盖CT、MRI、超声和乳腺钼靶等模态的模拟报告，涉及BI-RADS、LI-RADS等10种标准化风险分层框架。数据采用大语言模型生成后经两阶段放射科专家验证，通过模拟不同医师风格和病变特征确保临床真实性。该数据集专为评估开源与私有语言模型在复杂医学文本结构化任务中的性能而设计，尤其关注模型在遵循严格输出格式和临床准确性方面的表现，为医学自然语言处理研究提供了高标准基准。

RXL-RADSet is a synthetic radiology report dataset jointly developed by 11 institutions including the Postgraduate Institute of Medical Education and Research, India. It contains 1,600 simulated reports covering multiple imaging modalities such as CT, MRI, ultrasound, and mammography, and involving 10 standardized risk stratification frameworks including BI-RADS and LI-RADS. The dataset was generated using Large Language Models (LLMs) and validated via a two-stage radiologist review process, with clinical authenticity ensured by simulating diverse physician writing styles and lesion characteristics. This dataset is specifically designed to evaluate the performance of both open-source and proprietary LLMs on complex medical text structuring tasks, with particular focus on model performance in adhering to strict output formats and achieving clinical accuracy, thus providing a high-standard benchmark for medical natural language processing research.

提供机构：

医学教育与研究研究生院·放射诊断科; 塔塔医疗中心·放射诊断科; 全印度医学科学研究所·放射诊断科; 国家癌症研究所·放射诊断科; 巴纳拉斯印度大学·放射诊断科; Aster Malabar医学科学研究所·放射诊断科; 全印度医学科学研究所·放射诊断科; 塔塔主医院·放射诊断科; 拉吉夫·甘地癌症研究所与研究中心·放射诊断科; Baby Memorial医院·放射诊断科; 全印度医学科学研究所·放射诊断科

创建时间：

2026-01-07

原始信息汇总

RXL-RADSet 数据集概述

数据集基本信息

数据集名称：RXL-RADSet
数据集类型：用于评估语言模型的综合基准数据集
主要用途：放射学报告理解与生成任务的研究与评估
许可证：Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0)
访问方式：需通过在线表单申请（https://docs.google.com/forms/d/e/1FAIpQLSeOXcp63Fhe2Vlmm1FiuBuABejkgj_Y7HSlt-bMMw7klkWB3Q/viewform?usp=publish-editor）

核心特征

放射科医生验证：所有报告均由经验丰富的放射科医生验证
合成生成：报告采用受控的合成方法生成，确保质量和多样性
多模态覆盖：包含CT、MRI、乳腺X线摄影和超声的报告
涵盖10个RADS系统：包括NI-RADS、TI-RADS、Lung-RADS、BI-RADS、CAD-RADS、LI-RADS、GB-RADS、VI-RADS、PI-RADS和O-RADS

数据集规模与构成

报告总数：1,600份
RADS系统数量：10个
涵盖的影像模态：CT、MRI、乳腺X线摄影、超声

按模态分布

领域	CT	MRI	乳腺X线摄影	超声	总计
BI-RADS	0	100	100	100	300
CAD-RADS	100	0	0	0	100
GB-RADS	0	0	0	100	100
LI-RADS	150	150	0	100	400
Lung-RADS	100	0	0	0	100
NI-RADS	100	0	0	0	100
O-RADS	0	100	0	100	200
PI-RADS	0	100	0	0	100
TI-RADS	0	0	0	100	100
VI-RADS	0	100	0	0	100

数据集目的

旨在通过提供高质量、标准化的基准来推进医学语言模型的研究，适用于以下任务：

报告生成
临床发现提取
印象生成
报告分类

数据内容与格式

样本报告格式：PDF文件（例如：R013_O_MRI.pdf、R076_O_US.pdf、R065_P_MRI.pdf）
元数据文件：包含每个报告的标准化信息
元数据字段：
- Report_Number：唯一标识符（例如：R001_B_MG = 报告1, BI-RADS, 乳腺X线摄影）
- Modality：影像模态（CT、MRI、乳腺X线摄影、超声）
- Profile：使用的放射科医生档案（1-5）
- RADS_score：分配的RADS评分
完整元数据文件路径：assets/samples/metadata.csv

使用条款

允许：共享（以任何媒介或格式复制和重新分发材料）、改编（混合、转换和基于材料进行创作）
要求：
- 署名：必须给出适当的署名
- 非商业性：不得将材料用于商业目的
- 相同方式共享：如果您混合、转换或基于材料进行创作，则必须在相同的许可下分发您的贡献

联系方式

主要联系人邮箱：0xkbose@pm.me
抄送邮箱：pankajgupta959@gmail.com

搜集汇总

数据集介绍

构建方式

在医学影像报告标准化领域，RXL-RADSet数据集的构建采用了严谨的多阶段合成方法。研究团队首先针对10种不同的报告与数据系统框架设计了详尽的临床场景模板，涵盖多种成像模态与风险分层。随后，利用前沿的大型语言模型，结合模拟的不同资历放射科医师的写作风格，生成了初始的合成报告。为确保数据的临床可靠性与真实性，所有报告均经过了两阶段放射科专家验证：先由资深放射科医师进行真实性与完整性筛查，再由亚专科医师复核其与RADS指南的符合度并确认标签，最终形成了包含1600份报告的基准数据集。

特点

该数据集的核心特征在于其广泛的覆盖范围与精心设计的复杂性。它囊括了乳腺、肝脏、前列腺等10个关键器官系统的RADS框架，并平衡了计算机断层扫描、磁共振成像、超声和乳腺X线摄影四种成像模态的报告。每份报告均模拟了真实的叙事风格，避免了模板化数据的局限性。尤为突出的是，数据集引入了基于分类负担、算法工作流深度和解释模糊性指数的综合复杂性评分，使得模型性能能够按任务难度进行分层评估，为理解人工智能在复杂临床决策中的能力边界提供了细致视角。

使用方法

RXL-RADSet数据集主要用于评估语言模型从自由文本放射学报告中自动提取标准化RADS类别的能力。在使用时，通常采用引导式提示策略，即为模型提供包含具体RADS规则、平局决胜机制和严格输出格式约束的系统提示，再辅以读取报告并生成最终类别的用户指令。研究展示了对比零样本提示，引导式提示能显著提升模型输出的有效性和分类准确性。该数据集支持对开源小模型与专有模型进行头对头性能比较，尤其适用于探究模型规模、推理模式与任务复杂性之间的交互关系，为开发可本地部署、隐私保护的临床决策支持工具提供了关键基准。

背景与挑战

背景概述

在医学影像学领域，报告与数据系统（RADS）为风险分层与沟通提供了标准化框架，但其从叙事性放射学报告中自动分配类别的任务因指南复杂性与输出格式约束而极具挑战。为应对这一需求，由印度多家顶尖医学研究机构（如昌迪加尔医学教育与研究研究生院、塔塔医疗中心等）的放射诊断学专家团队于2025年主导创建了RXL-RADSet数据集。该数据集旨在构建一个经过放射科医生验证的合成多RADS基准，核心研究问题聚焦于评估开放权重小语言模型与专有模型在RADS分配任务上的性能差异，从而推动临床决策支持系统的集成与二次分析应用，对医学人工智能与放射信息学领域的发展具有重要影响力。

当前挑战

该数据集旨在解决的领域核心挑战，是实现从非结构化的叙事性放射学报告中，精准、自动化地提取并分配标准化的RADS风险类别。这要求模型必须深刻理解复杂的临床指南逻辑，并严格遵守严格的输出格式约束，以避免产生无效或不合规的预测。在数据集构建过程中，研究团队面临多重挑战：首先，生成兼具临床真实性与报告风格多样性的合成报告，需模拟不同资历放射科医生的写作风格，并跨越CT、MRI、超声和乳腺X线摄影等多种模态；其次，为确保数据质量，所有报告需经过资深放射科医生与亚专科专家的两阶段严格验证与修正，此过程耗时且对专业知识依赖极高；最后，为量化任务难度并指导评估，需为涵盖的10种RADS框架设计并应用一套涵盖分类负担、算法工作流深度和解释模糊性的综合复杂性评分体系。

常用场景

经典使用场景

在医学影像信息学领域，RXL-RADSet数据集的核心应用场景是作为评估语言模型在放射学报告结构化任务中性能的基准测试工具。该数据集通过涵盖10种不同的报告与数据系统框架，模拟了多模态影像检查下的叙事性报告，为研究者提供了一个标准化、可复现的测试平台。其经典用途在于系统性地比较不同规模与架构的开源小语言模型与专有模型在自动分配RADS类别任务上的有效性、准确性及输出合规性，从而揭示模型容量、提示工程与任务复杂性之间的内在关联。

实际应用

RXL-RADSet的实际应用价值主要体现在推动临床决策支持系统的智能化发展。基于该数据集的评估结果，医疗机构可以筛选出适合本地部署的开源小语言模型，用于自动化提取放射报告中的结构化风险评分，从而集成到报告工作流中，辅助放射科医师提升报告的一致性与效率。这种自动化工具能够支持大规模回顾性研究中的数据分析，例如从海量历史报告中批量提取RADS类别以进行流行病学或疗效研究。同时，其揭示的提示工程最佳实践与模型性能边界，为开发安全、可靠且符合临床规范的AI辅助工具提供了关键的设计依据与风险管控参考。

衍生相关工作

RXL-RADSet的发布催生了一系列围绕医学报告结构化与模型评估的衍生研究。其基准测试框架启发了后续工作对更多专有及开源模型在类似任务上的扩展性评估。数据集所采用的合成数据生成与专家验证范式，被其他研究借鉴用于创建特定器官或疾病的专项评测集。基于其揭示的模型在复杂任务上的性能缺口，衍生出了结合语言模型特征提取与确定性规则引擎的混合方法研究，旨在提升高复杂度RADS分类的鲁棒性。此外，该工作推动了对小语言模型在保护隐私的临床环境中部署可行性的深入探讨，促进了模型轻量化、提示优化以及输出模式治理等相关技术方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集