VL-Health

github2025-03-08 更新2025-03-09 收录

下载链接：

https://github.com/DCDmllm/HealthGPT

下载链接

链接失效反馈

官方服务：

资源简介：

VL-Health数据集

创建时间：

2025-02-17

原始信息汇总

HealthGPT 数据集概述

数据集简介

HealthGPT 是一个先进的医疗领域大型视觉-语言模型，具有统一的框架，集成了医疗视觉理解和生成能力。该项目提出了异质低秩适应（H-LoRA）和三阶段学习策略，使预训练的大型语言模型能够有效地遵循视觉理解和生成指令。

数据集构成

VL-Health 数据集：用于医疗视觉理解和生成任务的数据集。

任务类型支持

理解任务：支持 7 种类型的医疗理解任务。
生成任务：支持 5 种类型的医疗生成任务。

模型架构

HealthGPT 架构集成了层次视觉感知和 H-LoRA，采用任务特定的硬路由选择视觉特征和 H-LoRA 插件，以自回归方式生成文本和视觉输出。

使用说明

环境准备：使用 conda 创建 Python 环境，安装必要的依赖。
预训练权重准备：下载视觉编码器 clip-vit-large-patch14-336 和预训练语言模型 Phi-3-mini-4k-instruct、phi-4 的权重。
H-LoRA 和适配器权重准备：下载支持医疗视觉问答和开放世界视觉重建任务的 H-LoRA 参数和适配器层权重。

推理说明

医疗视觉问答：通过脚本或 Python 命令进行推理。
图像重建：通过脚本或 Python 命令进行图像重建。

交互界面

基于 Gradio 的交互式聊天界面：支持文本+图像输入，根据不同模式返回文本或图像。

引用信息

若本研究对您有所帮助，请引用以下论文信息。

许可

该仓库遵循 Apache License 2.0。

搜集汇总

数据集介绍

构建方式

VL-Health数据集的构建采用了异质低秩适配（H-LoRA）和三阶段学习策略，将预训练的大型语言模型改造为能够同时进行医学视觉理解和生成任务。该数据集通过集成层次视觉感知和H-LoRA插件，使用任务特定的硬路由选择视觉特征，以自回归方式生成文本和视觉输出。

特点

VL-Health数据集的特点在于其支持7种医学理解任务和5种医学生成任务，性能优于最近的统一视觉模型和特定医学模型。数据集结合了大型视觉-语言模型HealthGPT，该模型具有统一的框架，能够整合医学视觉理解和生成能力。

使用方法

使用VL-Health数据集首先需要准备相应的Python环境，并下载所需的预训练权重文件。之后，通过修改脚本中的模型路径和参数，可以执行医学视觉问答或图像重建等任务。此外，项目还提供了一个基于Gradio的交互式聊天界面，支持文本和图像输入，并根据不同的模式返回文本或图像。

背景与挑战

背景概述

VL-Health数据集，由浙江大学、电子科技大学、阿里巴巴等机构的研究人员于2025年联合创建。该数据集旨在通过异质知识适应，统一医疗视觉理解和生成能力，推出了HealthGPT这一大型医疗视觉语言模型。HealthGPT支持7种医疗理解任务和5种医疗生成任务，性能超过最近的统一视觉模型和特定于医疗的模型，对医疗信息处理领域产生了显著影响。

当前挑战

VL-Health数据集在构建过程中面临的挑战包括：一是如何高效地融合医疗视觉理解和生成任务，二是如何通过异质知识适应来提升预训练语言模型在医疗视觉任务上的性能。此外，数据集的构建还需要解决如何处理大规模医疗数据、保证数据隐私和安全性等问题。

常用场景

经典使用场景

HealthGPT数据集最经典的使用场景在于医疗视觉问答和图像重构。其通过异质知识适应，整合了视觉理解和生成能力，能够有效地处理医学术语和视觉信息的结合，为医疗领域提供强大的语言模型支持。

解决学术问题

该数据集解决了传统视觉模型和语言模型在处理医疗数据时的异质性难题，通过特定的训练策略和模型架构，提升了模型在医疗视觉问答、图像生成等任务上的性能，对医疗信息处理和临床决策支持具有显著意义。

衍生相关工作

基于HealthGPT数据集，衍生出了一系列相关研究工作，如LLaVA、LLaVA++等，这些工作进一步扩展了视觉语言模型在医疗领域的应用范围，推动了医学人工智能技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集