VL-Health

Name: VL-Health
Creator: 浙江大学, 电子科技大学, 阿里巴巴, 香港科技大学, 新加坡国立大学
Published: 2025-02-14 08:42:36
License: 暂无描述

arXiv2025-02-14 更新2025-02-18 收录

下载链接：

https://github.com/DCDmllm/HealthGPT

下载链接

链接失效反馈

官方服务：

资源简介：

VL-Health数据集是由浙江大学等机构创建的，用于训练统一医疗多模态模型的综合数据集，包含7个理解任务和5个生成任务。该数据集有效整合了医疗视觉理解与生成任务，旨在促进医疗大型视觉语言模型的发展。

The VL-Health dataset was developed by Zhejiang University and other institutions. It is a comprehensive dataset designed for training unified medical multimodal models, which includes 7 understanding tasks and 5 generation tasks. This dataset effectively integrates medical visual understanding and generation tasks, aiming to advance the development of large medical vision-language models.

提供机构：

浙江大学, 电子科技大学, 阿里巴巴, 香港科技大学, 新加坡国立大学

创建时间：

2025-02-14

搜集汇总

数据集介绍

构建方式

VL-Health数据集的构建基于多种医学特定数据集，包括PubMedVision、LLaVA-Med、PathVQA、MIMIC-CXR-VQA、SLAKE和VQA-RAD，以及开放世界的LLaVA-1.5数据集。为了确保数据集的多样性和复杂性，数据集包括了多种医学影像模态，如放射学和病理学，并包含了专业的注释，以帮助模型学习诸如病变检测和疾病诊断等任务。此外，数据集还包括了高质量的开放世界数据，以保留模型的一般知识和指令遵循能力。在生成任务方面，数据集涵盖了四个主流任务类别：超分辨率图像生成、模态转换、文本到图像生成和图像重建。为了支持这些任务，数据集使用了IXI、MIMIC-CHEST-XRAY和SynthRAD2023等数据集，并为每个任务类别提供了适当的数据。在数据处理方面，数据集进行了过滤和处理，以确保数据的质量和可用性。对于视觉问答任务，数据条目被标准化为开放式问题和单选题，以便灵活地进行训练和评估。此外，考虑到多图像数据对性能的影响最小，但会增加填充和训练时间，因此排除了多图像数据。对于生成任务中的扫描图像数据，应用了切片提取、图像配准、数据增强和归一化等处理，以便将2D图像作为模型的视觉输入进行训练，或使用VQGAN生成的索引来监督生成任务。

使用方法

VL-Health数据集的使用方法包括两个主要步骤：数据收集和数据处理。在数据收集阶段，数据集从多种医学特定数据集中精心挑选，以确保数据集的多样性和复杂性。在数据处理阶段，数据集进行了过滤和处理，以确保数据的质量和可用性。数据集采用了统一的指令-响应格式，以便于训练和评估。此外，数据集还采用了多种任务类型，如超分辨率图像生成、模态转换、文本到图像生成和图像重建，以支持模型的生成能力。

背景与挑战

背景概述

在医疗领域，视觉语言模型（LVLMs）在理解医学图像和基于这些图像以语言交互方式进行推理方面展现出了出色的能力。HealthGPT是一个强大的医学大型视觉语言模型，它在一个统一的自回归框架中整合了医学视觉理解和生成能力。该模型的开发旨在解决医疗领域视觉理解和生成任务的需求，通过逐步适应预训练的大型语言模型（LLMs）中的异构理解和生成知识来实现。HealthGPT的创建者是来自浙江大学、电子科技大学、阿里巴巴、香港科技大学和新加坡国立大学的研究人员，他们提出了一种名为异构低秩适应（H-LoRA）的创新技术，以有效地解决数据冲突问题。HealthGPT在医学视觉统一任务中展现出卓越的性能和可扩展性，为医疗应用提供了多功能性。为了训练HealthGPT，研究人员创建了一个名为VL-Health的全面医学领域特定理解和生成数据集，该数据集包括七个理解和五个生成任务，涵盖了从X射线、CT、MRI到显微镜、OCT、眼底和超声波等多种医学成像模态。HealthGPT的出现为医疗领域的视觉语言模型研究开辟了新的方向，并展示了其在解决复杂医疗场景中的多模态理解和生成任务方面的潜力。

当前挑战

HealthGPT面临的主要挑战包括：（1）高规模和高质量数据的限制：与开放世界的模型相比，医学数据在规模和质量上都存在显著差距，这为从零开始开发统一的医学模型带来了挑战；（2）理解和生成任务之间的冲突：理解和生成任务在视觉细节的处理上存在矛盾，理解任务通常抽象化视觉细节，而生成任务则需要保留详细的视觉信息，这使得模型在自回归多模态训练中难以保持一致性。为了应对这些挑战，HealthGPT采用了创新的H-LoRA技术，将理解和生成知识存储在独立的“插件”中，避免了联合优化问题。此外，HealthGPT还引入了分层视觉感知（HVP）和三阶段学习策略（TLS），以适应不同的任务需求，并通过混合任务训练来建立融合嵌入层和输出头，从而建立一个统一的LVLM基础。通过这些方法，HealthGPT有效地解决了医学视觉理解和生成任务中的数据冲突问题，并在多个指标上取得了与现有最先进模型相当或更好的性能。

常用场景

经典使用场景

VL-Health 数据集在医学视觉理解和生成任务中扮演着核心角色，支持 HealthGPT 模型进行多模态理解（包括 X 射线、CT、MRI、显微镜、OCT、眼底照片和超声波的视觉理解）和生成（包括 CT 到 MRI 的转换、MRI 到 CT 的转换、图像重建、超分辨率和报告到 X 射线图像的生成）。该数据集涵盖了丰富的医疗图像模态，为医学视觉语言模型的训练提供了坚实的基础。

解决学术问题

VL-Health 数据集解决了医学视觉语言模型训练中的关键问题，包括数据规模和质量限制、以及理解和生成任务之间的冲突。该数据集通过整合多种医学图像数据集，提供了大规模和高质量的训练样本，为医学视觉语言模型的训练提供了有力支持。同时，数据集的设计考虑了理解和生成任务之间的差异，有效缓解了任务冲突，提高了模型的性能。

实际应用

VL-Health 数据集在医学领域具有广泛的应用前景，可以支持医学诊断、治疗规划和医学教育等任务。例如，模型可以根据 X 射线图像生成报告，帮助医生进行诊断；还可以进行图像重建和超分辨率，提高医学图像的质量；此外，模型还可以用于医学教育和培训，帮助医学生和医生更好地理解和学习医学知识。

数据集最近研究