CT-RATE-VQA

Name: CT-RATE-VQA
Creator: 中国科学院
Published: 2025-10-22 22:21:59
License: 暂无描述

arXiv2025-10-22 更新2025-11-05 收录

下载链接：

https://hf-mirror.com/datasets/liyf001/CT-RATE-VQA

下载链接

链接失效反馈

官方服务：

资源简介：

CT-RATE-VQA数据集是一个基于CT图像的视觉问答数据集，包含84,500个问答对。该数据集旨在支持医学影像模型训练和评估，涵盖了七种临床常见疾病类别，如气道异常、肺气肿、纤维化相关改变等。数据集通过局部放大技术增强了病变特征，并利用强化学习框架提高了模型的推理能力，从而实现了对胸片异常的更准确和稳定的识别。

The CT-RATE-VQA dataset is a computed tomography (CT) image-based visual question answering (VQA) dataset containing 84,500 question-answer pairs. It is designed to support the training and evaluation of medical imaging models, covering seven clinically common disease categories such as airway abnormalities, emphysema, fibrosis-related alterations, and others. The dataset enhances lesion features through local magnification techniques, and leverages a reinforcement learning framework to improve the reasoning capabilities of models, thereby enabling more accurate and stable recognition of chest X-ray abnormalities.

提供机构：

中国科学院

创建时间：

2025-10-22

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，高质量数据集的构建对提升模型诊断能力至关重要。CT-RATE-VQA数据集基于ReXGroundingCT原始数据，通过多类别分割掩码提取病灶边界框，并筛选像素面积超过1300的显著区域。每个病例均匀采样至多20个切片，最终形成包含84,000个问答对的大规模数据集。为模拟放射科医生的诊断流程，创新性地在切片左上角嵌入病灶区域的局部放大补丁，通过彩色边框突出显示细节特征，使模型在保留全局解剖结构的同时聚焦局部病灶。

使用方法

该数据集适用于两阶段训练范式。在监督微调阶段，模型通过问答对学习基础诊断能力，仅更新多层感知机层以适配医学任务。强化学习阶段采用GRPO框架，通过结构化奖励函数优化模型输出：格式奖励确保生成包含推理链与答案标签的规范响应，有效性奖励验证预测类别属于既定疾病集合，正确性奖励直接衡量诊断准确性。这种组合奖励机制引导模型自主习得结构化推理能力，无需依赖人工标注的思维链。

背景与挑战

背景概述

医学视觉问答领域致力于通过结合医学影像与自然语言处理技术，辅助临床诊断决策并提升模型可解释性。CT-RATE-VQA数据集由中国科学院大学等机构的研究团队于2025年创建，旨在解决通用视觉语言模型在医学影像分析中的性能瓶颈。该数据集包含84,000个基于胸部CT影像的问答对，覆盖气道异常、肺气肿、纤维化等七类常见胸部病变，通过精细化切片级标注构建了迄今规模最大的CT视觉问答基准。其创新性地引入局部病灶放大增强策略，模拟放射科医师由粗到细的诊断逻辑，为医学多模态大模型训练提供了关键数据支撑。

当前挑战

该数据集主要应对医学影像诊断中病灶边界模糊与尺度多变导致的特征提取难题，其构建过程面临双重挑战：在领域问题层面，需突破传统模型对全局病灶定位与局部细节捕捉的平衡困境，通过嵌入放大病灶区域的设计强化模型对细微病理特征的敏感性；在数据构建层面，克服了医学影像标注专业性强、成本高昂的障碍，采用连通分量分析技术自动提取病灶边界框，并通过像素阈值筛选与均匀采样策略确保数据质量与类别平衡。此外，数据集的问答对设计需严格遵循临床诊断逻辑，既要涵盖多病变类型的鉴别需求，又要保持与真实诊断流程的一致性。

常用场景

经典使用场景

在医学影像分析领域，CT-RATE-VQA数据集被广泛应用于视觉问答系统的训练与评估。该数据集通过8.4万对高质量的CT图像与问题答案组合，为模型提供了从全局定位到局部病灶特征分析的完整学习框架。其经典使用场景包括训练多模态大语言模型进行胸部CT异常分类，模拟放射科医师从粗粒度定位到细粒度诊断的推理流程，显著提升了模型在肺结节、肺气肿等七类常见病变识别中的表现。

解决学术问题

该数据集有效解决了医学视觉问答领域三大核心难题：首先突破了高质量医学影像数据稀缺的瓶颈，通过大规模切片级标注填补了传统数据集样本量不足的缺陷；其次针对病灶边界模糊与尺度多变的特点，设计了局部放大增强策略，强化模型对细微病变特征的捕捉能力；最后通过结构化奖励机制引导模型生成可解释的诊断推理过程，为医疗人工智能的可信部署提供了关键技术支撑。

实际应用

在临床实践中，CT-RATE-VQA支撑的智能诊断系统已展现出重要价值。其支持开发的MedReason-R1模型能够辅助放射科医师快速解读CT影像特征，将诊断准确率提升至52.18%，显著高于通用视觉语言模型。该系统可集成于医院PACS平台，实现气道异常、胸腔积液等疾病的实时筛查，既缓解了医疗资源分布不均的压力，又通过标准化诊断流程减少了人为判断差异，为基层医疗机构提供了专业级辅助诊断工具。

数据集最近研究