ROCOv2-radiology
收藏Hugging Face2024-11-12 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/eltorio/ROCOv2-radiology
下载链接
链接失效反馈官方服务:
资源简介:
ROCOv2是一个多模态数据集,包含放射影像和从PMC开放获取子集中提取的相关医学概念和描述。该数据集是ROCO数据集的更新版本,增加了35,705张新图像,并改进了概念提取和过滤。数据集包含79,789张放射影像,每张图像都有相应的描述和医学概念。图像来自PMC开放获取子集中的公开出版物,并根据CC BY或CC BY-NC许可。数据集分为训练集、验证集和测试集,分别包含59,958、9,904和9,927张图像。数据集的创建包括多个过滤步骤,如非复合图像过滤、放射影像过滤、许可过滤、重复删除和描述过滤。标签和概念的生成使用了医学概念注释工具包v1.10.0(MedCAT),并手动策划了模态、身体区域和方向性的概念。ROCOv2数据集可用于多种应用,如基于图像-描述对的图像注释模型训练、多标签图像分类、医学领域模型的预训练、多任务学习的深度学习模型评估以及图像检索和描述生成任务。
ROCOv2 is a multimodal dataset comprising radiological images and associated medical concepts and descriptions extracted from the open-access subset of PubMed Central (PMC). It is an updated version of the original ROCO dataset, with 35,705 new images added and improvements made to concept extraction and filtering workflows. The dataset contains a total of 79,789 radiological images, each paired with its corresponding description and medical concepts. All images are sourced from open-access publications within the PMC open-access subset and are licensed under CC BY or CC BY-NC. The dataset is split into training, validation, and test sets, which contain 59,958, 9,904, and 9,927 images respectively. The construction of ROCOv2 involves multiple filtering steps, including non-compound image filtering, radiological image filtering, license filtering, deduplication, and description filtering. Label and concept generation were performed using the Medical Concept Annotation Toolkit v1.10.0 (MedCAT), with manual curation of concepts related to modality, body region, and directional attributes. The ROCOv2 dataset supports a wide range of applications, including training image annotation models using image-description pairs, multi-label image classification, pre-training of medical-domain models, evaluation of deep learning models for multi-task learning, as well as image retrieval and image caption generation tasks.
创建时间:
2024-11-12
原始信息汇总
ROCOv2: Radiology Object in COntext version 2
简介
ROCOv2是一个多模态数据集,包含放射图像及其相关的医学概念和描述,这些数据是从PMC开放获取子集中提取的。它是ROCO数据集的更新版本,新增了35,705张图像,并改进了概念提取和过滤。
数据集概述
ROCOv2数据集包含79,789张放射图像,每张图像都有相应的描述和医学概念。这些图像来自PMC开放获取子集中的公开出版物,并根据CC BY或CC BY-NC许可发布。
数据集统计
- 79,789张放射图像
- 训练集:59,958张图像
- 验证集:9,904张图像
- 测试集:9,927张图像
- 总体唯一CUIs:1,947个
- 训练集CUIs:1,947个
- 验证集CUIs:1,760个
- 测试集CUIs:1,754个
数据集创建
数据集通过下载完整的PMC开放获取子集,提取图像和描述,并使用两个二分类模型进行过滤创建。这些模型分别达到了约90%和98.6%的准确率。
过滤步骤
- 非复合图像过滤:移除15,315,657张图像
- 放射图像过滤:移除64,831张图像
- 许可过滤:移除10,392张非CC BY或CC BY-NC许可的图像
- 重复移除:移除2,056张重复图像
- 描述过滤:移除1,528张非英语描述或非常短且无相关信息的图像
数据集标签和概念
数据集标签和概念使用医学概念注释工具包v1.10.0(MedCAT)生成,并手动为模态(所有图像)、身体区域(仅X射线)和方向性(仅X射线)进行了概念的整理。
标签和概念生成流程
- 图像描述提取
- 使用MedCAT进行概念提取
- 手动整理模态、身体区域和方向性的概念
- 结合自动生成和手动整理的概念
使用案例
ROCOv2数据集可用于多种应用,包括:
- 基于图像-描述对的图像注释模型训练
- 使用UMLS概念的多标签图像分类
- 医学领域模型的预训练
- 多任务学习的深度学习模型评估
- 图像检索和描述生成任务
引用
如果使用ROCOv2数据集进行研究,请引用以下论文: Pelka, O., Menze, B. H., & Rexhausen, S. E. (2023). Radiology Objects in COntext version 2 (ROCOv2): A multimodal dataset for medical image analysis. arXiv preprint arXiv:2405.10004.
许可证
ROCOv2数据集根据CC BY-NC-SA 4.0许可证发布。
致谢
我们感谢美国国家医学图书馆(NLM)提供PMC开放获取子集的访问权限,并感谢医学概念注释工具包(MedCAT)的创建者提供了宝贵的概念提取和注释工具。
搜集汇总
数据集介绍

构建方式
ROCOv2-radiology数据集的构建过程基于PMC开放获取子集,通过FTP下载全文内容,提取图像和描述,并利用两个二元分类模型进行筛选。首先,通过非复合图像过滤移除了15,315,657张图像,随后通过放射学图像过滤移除了64,831张图像。接着,根据许可证过滤移除了10,392张不符合CC BY或CC BY-NC许可的图像,并通过去重和描述过滤进一步优化数据集,最终保留了79,789张放射学图像及其对应的描述和医学概念。
特点
ROCOv2-radiology数据集包含79,789张放射学图像,每张图像均配有描述和医学概念,涵盖了1,947个独特的CUI(概念唯一标识符)。数据集分为训练集、验证集和测试集,分别包含59,958、9,904和9,927张图像。图像来源于PMC开放获取子集,确保了数据的公开性和可访问性。此外,数据集通过MedCAT工具自动提取概念,并经过人工校对,确保了标签和概念的准确性。
使用方法
ROCOv2-radiology数据集适用于多种医学图像分析任务,包括基于图像-描述对的图像标注模型训练、使用UMLS概念的多标签图像分类、医学领域模型的预训练、多任务学习模型的评估以及图像检索和描述生成任务。用户可通过Hugging Face平台访问数据集,并利用提供的代码和资源进行进一步的研究和开发。数据集的许可证为CC BY-NC-SA 4.0,确保了其在非商业用途下的广泛使用。
背景与挑战
背景概述
ROCOv2-radiology数据集是医学影像分析领域的重要资源,由Pelka、Menze和Rexhausen等研究人员于2023年发布。该数据集是ROCO数据集的升级版本,新增了35,705张影像,并改进了概念提取和过滤流程。ROCOv2包含79,789张放射影像,每张影像均配有相应的描述和医学概念,数据来源于PMC开放获取子集。该数据集的核心研究问题在于通过多模态数据(影像与文本)的结合,推动医学影像分析、多标签分类、模型预训练等任务的发展。ROCOv2的发布为医学人工智能研究提供了高质量的数据支持,显著提升了相关领域的研究效率和模型性能。
当前挑战
ROCOv2数据集在构建和应用过程中面临多重挑战。在构建阶段,研究人员需从海量PMC开放获取数据中筛选出符合要求的放射影像,并通过多步过滤流程去除非复合影像、非放射影像、不符合许可协议的影像以及重复影像,这一过程对算法的准确性和效率提出了极高要求。此外,医学概念的提取和标注依赖于MedCAT工具和人工校验,确保数据的准确性和一致性。在应用层面,ROCOv2数据集的多模态特性要求模型能够同时处理影像和文本信息,这对多任务学习和跨模态理解提出了技术挑战。同时,数据集的规模和质量直接影响模型的泛化能力,如何在有限的计算资源下高效利用该数据集,也是研究者需要解决的关键问题。
常用场景
经典使用场景
ROCOv2数据集在医学影像分析领域具有广泛的应用,特别是在图像标注和多标签分类任务中。研究人员可以利用该数据集中的放射影像及其对应的医学概念和描述,训练深度学习模型,以自动生成图像标注或进行多标签分类。此外,该数据集还可用于预训练医学领域的模型,提升模型在特定医学任务中的表现。
解决学术问题
ROCOv2数据集解决了医学影像分析中的多个关键问题。首先,它提供了大规模的放射影像及其对应的医学概念和描述,为研究人员提供了丰富的训练数据,有助于提升图像标注和多标签分类模型的准确性。其次,通过引入医学概念的统一医学语言系统(UMLS),该数据集支持多任务学习,使得模型能够同时处理多种医学任务,如影像检索和描述生成。
衍生相关工作
ROCOv2数据集衍生了许多经典的医学影像分析工作。例如,基于该数据集的研究开发了多种深度学习模型,用于放射影像的自动标注和多标签分类。此外,该数据集还被用于预训练医学领域的Transformer模型,提升了模型在医学影像分析任务中的表现。这些工作不仅推动了医学影像分析技术的发展,还为未来的研究提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成



