RadioGraphy Captions (RGC)

Name: RadioGraphy Captions (RGC)
Creator: 香港理工大学计算机系
Published: 2023-08-24 15:52:59
License: 暂无描述

arXiv2023-08-24 更新2024-06-21 收录

下载链接：

https://medpix.nlm.nih.gov/

下载链接

链接失效反馈

官方服务：

资源简介：

RadioGraphy Captions (RGC) 数据集是由香港理工大学计算机系的研究团队创建的，包含18,434个图像-标题对的医学视觉语言数据集。该数据集通过从MedPix数据库中精选和清理数据，涵盖了多种放射成像模态，如MRI、CT和超声等，以及详细的病例描述和丰富的注释信息。RGC数据集不仅用于预训练模型，还作为评估医学报告生成和医学图像-文本检索性能的新基准。该数据集的创建旨在解决医学视觉语言预训练研究中数据稀缺的问题，并推动计算机辅助诊断和医疗自动化技术的发展。

RadioGraphy Captions (RGC) dataset was developed by a research team from the Department of Computer Science, The Hong Kong Polytechnic University. It is a medical vision-language dataset containing 18,434 image-caption pairs. Curated and cleaned from the MedPix database, this dataset covers diverse radiographic modalities including MRI, CT, ultrasound and others, alongside detailed case descriptions and rich annotation information. The RGC dataset can serve not only for model pre-training, but also as a novel benchmark for evaluating the performance of medical report generation and medical image-text retrieval. The creation of this dataset aims to address the problem of data scarcity in medical vision-language pre-training research, and to advance the development of computer-aided diagnosis and medical automation technologies.

提供机构：

香港理工大学计算机系

创建时间：

2023-06-11

搜集汇总

数据集介绍

构建方式

在医学影像与语言多模态研究领域，高质量数据集的稀缺制约了预训练模型的深度探索。RGC数据集基于开放医学影像数据库MedPix构建，通过系统化数据清洗流程，从原始37,997对图像-文本数据中筛选出18,434对高质量样本。构建过程包含自动过滤与人工校验双重机制：首先剔除文本过短或无效的样本，随后由领域专家手动移除非放射影像、含教学标注的图像，以及包含特定数值比较或跨图像关联描述的文本，确保图像与文本的精确对齐。最终数据涵盖MRI、CT、X光、超声等多种影像模态，并按9:1比例划分为训练集与测试集，形成兼具多样性与一致性的基准数据集。

使用方法

RGC数据集在医学多模态预训练框架中具有双重应用价值。作为预训练数据集，研究者可采用视觉语言Transformer架构，结合掩码语言建模等自监督目标，在RGC上学习跨模态表示，再迁移至下游任务进行微调。实验表明，即使规模相对较小，其多模态特性仍能显著提升模型在VQA-RAD等医学视觉问答任务上的表现。作为基准数据集，RGC的测试集可用于系统评估医学报告生成与图文检索模型的性能。在报告生成任务中，需使用序列到序列注意力掩码进行微调；在图文检索任务中，则可通过二元匹配分类器计算图文匹配度。数据集的标准划分确保了评估结果的可靠性与可复现性。

背景与挑战

背景概述

在医学人工智能领域，视觉-语言多模态学习因其在计算机辅助诊断与医疗自动化中的巨大潜力而备受关注。然而，该领域长期面临高质量、大规模医学影像-文本对数据稀缺的困境。为系统探索医学视觉-语言预训练的关键影响因素，香港理工大学吴晓明教授团队于2023年构建了放射学描述数据集。该数据集源自开放医学影像数据库MedPix，经过严格清洗与筛选，最终形成包含18,434对高质量影像-文本的数据集合，涵盖MRI、CT、X射线、超声等多种成像模态。RGC的创立为医学报告生成、影像-文本检索等任务提供了重要的预训练数据源与基准测试平台，有效推动了跨模态医学人工智能研究的发展。

当前挑战

RGC数据集致力于解决医学视觉-语言理解与生成的核心挑战，其首要难题在于如何实现精准的跨模态语义对齐，即让模型深入理解影像特征与复杂临床描述之间的隐含关联。在构建过程中，研究团队面临多重困难：医学数据涉及患者隐私与版权限制，原始数据获取壁垒较高；专业标注依赖资深放射科医生，成本高昂且耗时漫长；原始MedPix数据存在大量噪声，包括教学标注箭头、无意义占位文本、多子图拼接描述等干扰信息。此外，数据清洗需人工剔除包含特定数值比较、多图像关联描述等机器学习模型难以学习的文本内容，这对数据质量控制提出了严峻考验。

常用场景

经典使用场景

在医学影像与自然语言处理交叉领域，RGC数据集作为高质量、多模态的放射学图像-文本对集合，其经典使用场景主要集中于医学视觉语言预训练研究。该数据集通过整合来自开放数据库MedPix的18,434对经过严格清洗的图像与描述文本，覆盖了MRI、CT、X射线及超声等多种成像模态，为构建统一的视觉语言Transformer模型提供了丰富且对齐良好的跨模态数据基础。在预训练阶段，研究者利用RGC进行掩码语言建模等自监督任务，使模型能够从海量放射学影像及其专业描述中学习深层次的语义关联，进而为下游任务奠定坚实的表征基础。

解决学术问题

RGC数据集的构建有效应对了医学视觉语言预训练领域长期存在的数据稀缺与质量不均问题。传统医学影像数据集往往受限于单一模态、特定身体部位或弱对齐的图文配对，难以支撑模型学习泛化的跨模态理解能力。RGC通过精心筛选与人工清洗，提供了多模态、多身体区域且图文对齐良好的高质量数据，使得研究者能够系统探究预训练目标、视觉骨干网络及数据组合等因素对模型性能的影响。该数据集不仅促进了医学视觉问答、影像-文本检索等理解任务的技术突破，也为医学报告生成等生成式任务提供了新的评估基准，推动了医学人工智能从感知向认知的演进。

实际应用

在实际医疗场景中，RGC数据集支撑的预训练模型可显著提升计算机辅助诊断系统的智能化水平。基于RGC预训练的视觉语言Transformer能够更精准地理解临床影像与文本查询之间的复杂关联，从而在医学视觉问答系统中为医生提供快速、准确的决策支持。在影像检索应用中，模型可实现以文搜图或以图搜文的高效匹配，助力临床教学与病例回顾。此外，尽管当前生成任务仍有局限，但RGC为自动化报告生成技术提供了多模态数据基础，未来有望辅助放射科医生撰写初步诊断描述，减轻其文书负担，提升诊疗效率与一致性。

数据集最近研究