ROCOv2-radiology|放射影像数据集|医学数据分析数据集

huggingface2024-11-12 更新2024-12-12 收录

放射影像

医学数据分析

下载链接：

https://huggingface.co/datasets/eltorio/ROCOv2-radiology

下载链接

链接失效反馈

资源简介：

ROCOv2是一个多模态数据集，包含放射影像和从PMC开放获取子集中提取的相关医学概念和描述。该数据集是ROCO数据集的更新版本，增加了35,705张新图像，并改进了概念提取和过滤。数据集包含79,789张放射影像，每张图像都有相应的描述和医学概念。图像来自PMC开放获取子集中的公开出版物，并根据CC BY或CC BY-NC许可。数据集分为训练集、验证集和测试集，分别包含59,958、9,904和9,927张图像。数据集的创建包括多个过滤步骤，如非复合图像过滤、放射影像过滤、许可过滤、重复删除和描述过滤。标签和概念的生成使用了医学概念注释工具包v1.10.0（MedCAT），并手动策划了模态、身体区域和方向性的概念。ROCOv2数据集可用于多种应用，如基于图像-描述对的图像注释模型训练、多标签图像分类、医学领域模型的预训练、多任务学习的深度学习模型评估以及图像检索和描述生成任务。

创建时间：

2024-11-12

原始信息汇总

ROCOv2: Radiology Object in COntext version 2

简介

ROCOv2是一个多模态数据集，包含放射图像及其相关的医学概念和描述，这些数据是从PMC开放获取子集中提取的。它是ROCO数据集的更新版本，新增了35,705张图像，并改进了概念提取和过滤。

数据集概述

ROCOv2数据集包含79,789张放射图像，每张图像都有相应的描述和医学概念。这些图像来自PMC开放获取子集中的公开出版物，并根据CC BY或CC BY-NC许可发布。

数据集统计

79,789张放射图像
训练集：59,958张图像
验证集：9,904张图像
测试集：9,927张图像
总体唯一CUIs：1,947个
训练集CUIs：1,947个
验证集CUIs：1,760个
测试集CUIs：1,754个

数据集创建

数据集通过下载完整的PMC开放获取子集，提取图像和描述，并使用两个二分类模型进行过滤创建。这些模型分别达到了约90%和98.6%的准确率。

过滤步骤

非复合图像过滤：移除15,315,657张图像
放射图像过滤：移除64,831张图像
许可过滤：移除10,392张非CC BY或CC BY-NC许可的图像
重复移除：移除2,056张重复图像
描述过滤：移除1,528张非英语描述或非常短且无相关信息的图像

数据集标签和概念

数据集标签和概念使用医学概念注释工具包v1.10.0（MedCAT）生成，并手动为模态（所有图像）、身体区域（仅X射线）和方向性（仅X射线）进行了概念的整理。

标签和概念生成流程

图像描述提取
使用MedCAT进行概念提取
手动整理模态、身体区域和方向性的概念
结合自动生成和手动整理的概念

使用案例

ROCOv2数据集可用于多种应用，包括：

基于图像-描述对的图像注释模型训练
使用UMLS概念的多标签图像分类
医学领域模型的预训练
多任务学习的深度学习模型评估
图像检索和描述生成任务

引用

如果使用ROCOv2数据集进行研究，请引用以下论文： Pelka, O., Menze, B. H., & Rexhausen, S. E. (2023). Radiology Objects in COntext version 2 (ROCOv2): A multimodal dataset for medical image analysis. arXiv preprint arXiv:2405.10004.

许可证

ROCOv2数据集根据CC BY-NC-SA 4.0许可证发布。

致谢

我们感谢美国国家医学图书馆（NLM）提供PMC开放获取子集的访问权限，并感谢医学概念注释工具包（MedCAT）的创建者提供了宝贵的概念提取和注释工具。

AI搜集汇总

数据集介绍

构建方式

ROCOv2-radiology数据集的构建过程基于PMC开放获取子集，通过FTP下载全文内容，提取图像和描述，并利用两个二元分类模型进行筛选。首先，通过非复合图像过滤移除了15,315,657张图像，随后通过放射学图像过滤移除了64,831张图像。接着，根据许可证过滤移除了10,392张不符合CC BY或CC BY-NC许可的图像，并通过去重和描述过滤进一步优化数据集，最终保留了79,789张放射学图像及其对应的描述和医学概念。

特点

ROCOv2-radiology数据集包含79,789张放射学图像，每张图像均配有描述和医学概念，涵盖了1,947个独特的CUI（概念唯一标识符）。数据集分为训练集、验证集和测试集，分别包含59,958、9,904和9,927张图像。图像来源于PMC开放获取子集，确保了数据的公开性和可访问性。此外，数据集通过MedCAT工具自动提取概念，并经过人工校对，确保了标签和概念的准确性。

使用方法

ROCOv2-radiology数据集适用于多种医学图像分析任务，包括基于图像-描述对的图像标注模型训练、使用UMLS概念的多标签图像分类、医学领域模型的预训练、多任务学习模型的评估以及图像检索和描述生成任务。用户可通过Hugging Face平台访问数据集，并利用提供的代码和资源进行进一步的研究和开发。数据集的许可证为CC BY-NC-SA 4.0，确保了其在非商业用途下的广泛使用。

背景与挑战

背景概述

ROCOv2-radiology数据集是医学影像分析领域的重要资源，由Pelka、Menze和Rexhausen等研究人员于2023年发布。该数据集是ROCO数据集的升级版本，新增了35,705张影像，并改进了概念提取和过滤流程。ROCOv2包含79,789张放射影像，每张影像均配有相应的描述和医学概念，数据来源于PMC开放获取子集。该数据集的核心研究问题在于通过多模态数据（影像与文本）的结合，推动医学影像分析、多标签分类、模型预训练等任务的发展。ROCOv2的发布为医学人工智能研究提供了高质量的数据支持，显著提升了相关领域的研究效率和模型性能。

当前挑战

ROCOv2数据集在构建和应用过程中面临多重挑战。在构建阶段，研究人员需从海量PMC开放获取数据中筛选出符合要求的放射影像，并通过多步过滤流程去除非复合影像、非放射影像、不符合许可协议的影像以及重复影像，这一过程对算法的准确性和效率提出了极高要求。此外，医学概念的提取和标注依赖于MedCAT工具和人工校验，确保数据的准确性和一致性。在应用层面，ROCOv2数据集的多模态特性要求模型能够同时处理影像和文本信息，这对多任务学习和跨模态理解提出了技术挑战。同时，数据集的规模和质量直接影响模型的泛化能力，如何在有限的计算资源下高效利用该数据集，也是研究者需要解决的关键问题。

常用场景

经典使用场景

ROCOv2数据集在医学影像分析领域具有广泛的应用，特别是在图像标注和多标签分类任务中。研究人员可以利用该数据集中的放射影像及其对应的医学概念和描述，训练深度学习模型，以自动生成图像标注或进行多标签分类。此外，该数据集还可用于预训练医学领域的模型，提升模型在特定医学任务中的表现。

解决学术问题

ROCOv2数据集解决了医学影像分析中的多个关键问题。首先，它提供了大规模的放射影像及其对应的医学概念和描述，为研究人员提供了丰富的训练数据，有助于提升图像标注和多标签分类模型的准确性。其次，通过引入医学概念的统一医学语言系统（UMLS），该数据集支持多任务学习，使得模型能够同时处理多种医学任务，如影像检索和描述生成。

衍生相关工作

ROCOv2数据集衍生了许多经典的医学影像分析工作。例如，基于该数据集的研究开发了多种深度学习模型，用于放射影像的自动标注和多标签分类。此外，该数据集还被用于预训练医学领域的Transformer模型，提升了模型在医学影像分析任务中的表现。这些工作不仅推动了医学影像分析技术的发展，还为未来的研究提供了宝贵的参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建，包含超过420小时的2D视频，涵盖20种不同语言，旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集，每段视频都配有语言标签和伪转录，部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证，确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力，通过引入语言特定风格嵌入，使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

ChemBL

ChemBL是一个化学信息学数据库，包含大量生物活性数据，涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。