Radiology Objects in COntext version 2 (ROCOv2)

Name: Radiology Objects in COntext version 2 (ROCOv2)
Creator: 多特蒙德应用科学大学计算机科学系
Published: 2024-05-16 19:44:35
License: 暂无描述

arXiv2024-05-16 更新2024-06-21 收录

下载链接：

https://zenodo.org/record/10821435

下载链接

链接失效反馈

官方服务：

资源简介：

ROCOv2是由多特蒙德应用科学大学计算机科学系等机构创建的更新版多模态图像数据集，包含79,789张放射学图像及其相关的医学概念和标题。该数据集从PMC开放获取子集中提取，适用于训练基于图像-标题对的图像标注模型，或使用统一医学语言系统（UMLS）概念进行多标签图像分类。此外，ROCOv2还可用于医学领域模型的预训练和深度学习模型的多任务学习评估。数据集创建过程中，通过下载PMC开放获取子集，使用二元分类模型过滤非复合和放射学图像，最终通过人工标注确保数据质量。ROCOv2的应用领域包括图像标题生成、图像检索和模型预训练，旨在解决医学图像分析中的数据需求和模型训练问题。

ROCOv2 is an updated multimodal medical image dataset developed by the Department of Computer Science of Dortmund University of Applied Sciences and other affiliated institutions. It comprises 79,789 radiological images alongside their associated medical concepts and captions. This dataset is extracted from the PMC Open Access Subset, and is suitable for training image captioning models based on image-caption pairs, as well as multi-label image classification using concepts from the Unified Medical Language System (UMLS). Additionally, ROCOv2 can be used for pre-training medical domain models and evaluating multi-task learning of deep learning models. During the dataset creation process, the PMC Open Access Subset was downloaded, a binary classification model was used to filter out non-compound and non-radiological images, and final data quality assurance was conducted via manual annotation. The application scenarios of ROCOv2 include image caption generation, image retrieval and model pre-training, aiming to address the data demands and model training challenges in medical image analysis.

提供机构：

多特蒙德应用科学大学计算机科学系

创建时间：

2024-05-16

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，构建高质量的多模态数据集对于推动深度学习模型的发展至关重要。ROCOv2数据集的构建始于从PubMed Central开放获取子集下载全部档案，涵盖截至2022年10月的出版物。通过提取超过1600万张图像，利用预训练的卷积神经网络进行双重过滤，首先识别非复合图像，随后筛选放射学图像，确保数据集的专一性。进一步基于知识共享许可协议筛选图像，移除重复项，并手动标注成像模态、X射线身体区域和方向性。最终数据集包含79,789张图像，分为训练、验证和测试集，每张图像均配有英文标题和统一医学语言系统概念。

特点

ROCOv2数据集作为放射学多模态资源的杰出代表，其核心特点在于广泛的覆盖范围和精细的标注体系。数据集涵盖多种成像模态，包括计算机断层扫描、磁共振成像、X射线等，并扩展至21,997张X射线图像，辅以手动标注的身体区域和方向性概念。每张图像均关联医学概念，通过医学概念标注工具包自动提取并结合手动验证，确保概念的准确性和视觉可解释性。数据集的多样性和高质量标注使其适用于图像标注、多标签分类和跨模态检索任务，为医学人工智能研究提供了坚实基础。

使用方法

ROCOv2数据集在医学人工智能应用中展现出多方面的实用性。研究人员可利用其图像-标题对训练图像标注模型，支持结构化医学报告生成。通过统一医学语言系统概念，数据集适用于多标签图像分类任务，助力开发辅助诊断系统。此外，数据集的规模和质量使其成为预训练医学领域模型的理想资源，特别是在跨模态学习场景中。数据集已成功应用于ImageCLEF医学标题挑战赛的概念检测和标题预测任务，验证了其在评估深度学习模型多任务学习能力方面的有效性。

背景与挑战

背景概述

随着深度学习技术在医学影像分析领域的迅猛发展，高质量多模态数据集成为推动模型创新与验证的关键基石。Radiology Objects in COntext version 2 (ROCOv2) 数据集由德国多特蒙德应用科学大学、埃森大学医院等机构的研究团队于2024年发布，作为2018年ROCO数据集的升级版本，其核心研究目标在于构建一个涵盖广泛解剖区域、影像模态与医学概念的大规模放射学图像-文本对资源。该数据集从PubMed Central开放获取子集中提取了79,789张放射学图像，并配以医学概念标注与描述性标题，旨在支持医学图像标注、多标签分类、标题生成及跨模态检索等任务，为医学人工智能模型的训练与评估提供了重要基础，显著促进了结构化医学报告系统与自动化影像分析工具的发展。

当前挑战

ROCOv2数据集致力于解决医学影像多模态理解中的核心挑战，即如何实现精准的医学概念检测与图像标题生成，以辅助临床决策与报告自动化。在构建过程中，研究团队面临多重挑战：首先，数据源局限于PMC开放获取子集，引入了出版偏倚与图像质量不均的问题，例如部分图像在存档中分辨率较低或与标题错配；其次，原始标题常存在信息模糊或缺失，导致模态、解剖区域与方向性标注困难，需依赖大量人工校验与深度学习模型辅助标注；此外，数据集中某些罕见影像模态（如正电子发射断层扫描）样本稀缺，影响了模型在均衡数据分布下的泛化能力；最后，为确保数据可分发性，团队需严格筛选符合CC BY许可协议的图像，这进一步限制了数据集的规模与多样性。

常用场景

经典使用场景

在医学影像分析领域，ROCOv2数据集为多模态学习提供了关键支撑。该数据集最经典的应用场景是训练和评估医学图像描述生成模型，通过其丰富的图像-文本对，研究者能够开发出能够准确解读放射影像内容的智能系统。这些模型不仅能够自动生成详细的影像描述，还能辅助临床医生进行快速诊断，提升医疗报告撰写的效率与一致性。

实际应用

在实际医疗场景中，ROCOv2数据集能够赋能智能影像检索系统的构建。基于该数据集训练的模型可实现根据特定查询或相似病例快速定位相关放射影像，显著提升临床决策效率。此外，数据集支持的多模态检索增强生成技术，可用于辅助生成详尽的医疗报告或解答复杂的临床问题，为精准医疗和个性化诊疗提供可靠的技术支持。

衍生相关工作

ROCOv2数据集已衍生出多项具有影响力的研究工作。例如，Eslami等人利用该数据集对CLIP模型进行医学领域微调，开发出性能卓越的PubMedCLIP视觉编码器。在ImageCLEF医学描述任务中，该数据集持续作为基准测试平台，催生了众多高效的医学概念检测与描述生成模型。这些工作不仅验证了数据集的实用价值，也进一步拓展了其在医学视觉问答、跨模态检索等前沿方向的应用潜力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集