photonmz/roco-instruct-65k

Name: photonmz/roco-instruct-65k
Creator: photonmz
Published: 2023-08-04 03:39:56
License: 暂无描述

Hugging Face2023-08-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/photonmz/roco-instruct-65k

下载链接

链接失效反馈

官方服务：

资源简介：

roco-instruct-65k数据集是从Radiology Objects in COntext (ROCO)数据集中派生出来的，主要用于医学影像的深度分析和诊断。数据集包含了从PubMed Central Open Access FTP镜像中获取的出版物图像，并针对LLaVA模型进行了重新格式化。数据集支持生成模型用于图像标注、分类模型用于图像分类以及标签或基于内容的图像检索系统。数据集的语言主要是英语，涵盖了医学影像领域，特别是放射学。数据集的结构以对话形式呈现，其中人类提供图像并给出分析指令，模型则回应诊断结果。数据集分为训练集、验证集和测试集。

The ROCO-Instruct-65K dataset is derived from the Radiology Objects in COntext (ROCO) dataset, and is primarily used for deep analysis and diagnosis of medical images. This dataset contains publication images sourced from the PubMed Central Open Access FTP mirror, and has been reformatted specifically for the LLaVA model. It supports generative models for image captioning, classification models for image classification, as well as label-based or content-based image retrieval systems. The dataset is primarily in English, covering the field of medical imaging, especially radiology. The dataset structure is presented in a conversational format, where humans provide images along with analytical instructions, and the model responds with diagnostic outputs. The dataset is divided into training, validation, and test splits.

提供机构：

photonmz

原始信息汇总

数据集卡片 "roco-instruct-65k"

数据集描述

数据集概述

"roco-instruct-65k" 数据集源自 Radiology Objects in COntext (ROCO) 数据集，这是一个大规模的医学和多模态成像集合。图像来自 PubMed Central Open Access FTP 镜像上可用的出版物。该数据集经过重新格式化，用于 LLaVA 模型在 BabyDoctor 项目中，专注于放射图像的深度分析和诊断。它包括标题、关键词、UMLS 语义类型（SemTypes）和 UMLS 概念唯一标识符（CUIs），并支持图像标题生成模型、图像分类模型和基于内容的图像检索系统的创建。主要使用英语，涵盖医学成像领域，特别是放射学。

支持的任务和排行榜

image-classification：该数据集可用于训练图像分类模型，涉及将图像分类为放射学或非放射学。该任务的成功通常通过高准确性来衡量，有一个活跃的排行榜可以在 ImageCLEFmed Caption 2019 和 CrowdAI 找到。

语言

数据集完全由英语的医学文本组成。

数据集结构

数据实例

数据集以对话格式结构化，其中人类提供图像并给出分析指令，模型以诊断响应。数据集中的典型实例如下：

json { conversations: [ { "from": "human", "value": "The following image is a radiology scan. Deeply analyze and diagnose this image. <image>" }, { "from": "gpt", "value": "Computed tomography scan in axial view showing obliteration of the left maxillary sinus" } ], image: "ROCO_00002.jpg", id: "00002" }

数据字段

conversations：包含人类和模型之间关于图像的交互的列表。
image：包含图像文件名称的字符串。
id：表示交互唯一标识符的字符串。

数据分割

数据集分为训练、验证和测试集。具体分割大小如下：

	train	validation	test
数据实例	65000	8200	8200

数据集创建

策划理由

"roco-instruct-65k" 数据集的创建旨在促进能够对放射图像进行深度分析和诊断的 AI 模型的发展，这是自动化医学成像解释的关键步骤。

引用信息

@photomz 将此数据集上传到 HuggingFace。使用此数据集时，请引用原始的 ROCO 论文。

O. Pelka, S. Koitka, J. Rückert, F. Nensa, C.M. Friedrich, "Radiology Objects in COntext (ROCO): A Multimodal Image Dataset". MICCAI Workshop on Large-scale Annotation of Biomedical Data and Expert Label Synthesis (LABELS) 2018, September 16, 2018, Granada, Spain. Lecture Notes on Computer Science (LNCS), vol. 11043, pp. 180-189, Springer Cham, 2018. doi: 10.1007/978-3-030-01364-6_20

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，数据集的构建需兼顾专业性与规模性。roco-instruct-65k数据集源自Radiology Objects in COntext（ROCO）数据集，其原始图像采集自PubMed Central开放获取文献库中的医学出版物。这些图像经过精心筛选与标注，附带了详细的文本描述、关键词以及统一医学语言系统（UMLS）的语义类型与概念标识符。为适配多模态大语言模型如LLaVA，数据集被重构为对话格式，其中人类用户提供放射影像并请求深度分析，而模型则生成相应的诊断描述。整个构建过程强调医学准确性，确保了数据在放射学领域的专业价值。

特点

该数据集的核心特点在于其多模态结构与医学专业性。数据集包含超过六万五千个实例，每个实例均由放射影像与结构化对话组成，模拟了临床诊断中的交互场景。影像内容涵盖广泛的放射学检查类型，如计算机断层扫描与磁共振成像，并配有精确的英文医学描述。数据集进一步整合了UMLS标准化的语义标签，增强了其在医学概念识别与检索任务中的实用性。这种设计不仅支持图像分类与生成任务，还为基于内容的医学影像检索系统提供了丰富的基础。

使用方法

在医学人工智能应用中，该数据集主要用于训练多模态模型进行放射影像的深度分析与诊断。研究人员可借助其对话格式，构建端到端的生成模型，实现从影像输入到文本诊断的输出。数据集的标准划分——训练集、验证集与测试集——为模型评估提供了可靠基准。典型使用流程包括加载影像与对话数据，利用预训练视觉编码器提取特征，并结合语言模型生成诊断文本。该数据集亦适用于图像分类任务，如在ImageCLEFmed等国际竞赛中验证模型区分放射学与非放射学影像的能力。

背景与挑战

背景概述

在医学影像分析领域，随着人工智能技术的快速发展，构建能够理解并诊断放射学图像的多模态数据集成为研究热点。ROCO（Radiology Objects in COntext）数据集由O. Pelka等研究人员于2018年创建，源自PubMed Central开放获取文献中的图像资源，旨在通过结合图像与文本描述，推动自动化医学影像解读的进步。该数据集的核心研究问题聚焦于放射学图像的深度分析与诊断，通过提供图像、标题、关键词及医学术语标注，支持图像分类、图像描述生成及内容检索等任务，对医学人工智能领域产生了深远影响，促进了如LLaVA等模型在医疗场景中的应用。

当前挑战

ROCO数据集所解决的领域问题在于放射学图像的自动化分析与诊断，其挑战包括医学图像的复杂语义理解、多模态信息融合的精确性，以及模型在临床环境中的泛化能力。在构建过程中，数据集面临数据采集与标注的困难，例如从海量医学文献中筛选高质量图像、确保医学术语（如UMLS概念）的准确标注，以及处理图像与文本之间的对齐问题，这些挑战均需跨学科合作以保障数据的可靠性与实用性。

常用场景

经典使用场景

在医学影像分析领域，roco-instruct-65k数据集为多模态人工智能模型提供了丰富的训练资源。该数据集以对话形式组织，模拟临床场景中医生对放射影像的深度解读过程。经典应用场景包括训练视觉语言模型，使其能够根据输入的放射影像生成准确的诊断描述，从而辅助医学影像的自动化分析。这种结构特别适用于开发端到端的生成式模型，提升模型在复杂医学语境下的理解与表达能力。

衍生相关工作

围绕该数据集已衍生出多项具有影响力的研究工作。例如，BabyDoctor项目将其重构为指令微调格式，用于训练LLaVA等大型视觉语言模型在医疗领域的专用版本。在ImageCLEFmed国际评测任务中，该数据集成为医学影像标注赛道的重要基准。后续研究进一步拓展了其在病理图像分析、跨模态预训练等方向的应用，催生了如医疗视觉问答系统、手术影像实时分析等一系列创新成果。

数据集最近研究