five

VL-Health|医疗视觉理解数据集|多模态模型数据集

收藏
arXiv2025-02-14 更新2025-02-18 收录
医疗视觉理解
多模态模型
下载链接:
https://github.com/DCDmllm/HealthGPT
下载链接
链接失效反馈
资源简介:
VL-Health数据集是由浙江大学等机构创建的,用于训练统一医疗多模态模型的综合数据集,包含7个理解任务和5个生成任务。该数据集有效整合了医疗视觉理解与生成任务,旨在促进医疗大型视觉语言模型的发展。
提供机构:
浙江大学, 电子科技大学, 阿里巴巴, 香港科技大学, 新加坡国立大学
创建时间:
2025-02-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
VL-Health数据集的构建基于多种医学特定数据集,包括PubMedVision、LLaVA-Med、PathVQA、MIMIC-CXR-VQA、SLAKE和VQA-RAD,以及开放世界的LLaVA-1.5数据集。为了确保数据集的多样性和复杂性,数据集包括了多种医学影像模态,如放射学和病理学,并包含了专业的注释,以帮助模型学习诸如病变检测和疾病诊断等任务。此外,数据集还包括了高质量的开放世界数据,以保留模型的一般知识和指令遵循能力。在生成任务方面,数据集涵盖了四个主流任务类别:超分辨率图像生成、模态转换、文本到图像生成和图像重建。为了支持这些任务,数据集使用了IXI、MIMIC-CHEST-XRAY和SynthRAD2023等数据集,并为每个任务类别提供了适当的数据。在数据处理方面,数据集进行了过滤和处理,以确保数据的质量和可用性。对于视觉问答任务,数据条目被标准化为开放式问题和单选题,以便灵活地进行训练和评估。此外,考虑到多图像数据对性能的影响最小,但会增加填充和训练时间,因此排除了多图像数据。对于生成任务中的扫描图像数据,应用了切片提取、图像配准、数据增强和归一化等处理,以便将2D图像作为模型的视觉输入进行训练,或使用VQGAN生成的索引来监督生成任务。
使用方法
VL-Health数据集的使用方法包括两个主要步骤:数据收集和数据处理。在数据收集阶段,数据集从多种医学特定数据集中精心挑选,以确保数据集的多样性和复杂性。在数据处理阶段,数据集进行了过滤和处理,以确保数据的质量和可用性。数据集采用了统一的指令-响应格式,以便于训练和评估。此外,数据集还采用了多种任务类型,如超分辨率图像生成、模态转换、文本到图像生成和图像重建,以支持模型的生成能力。
背景与挑战
背景概述
在医疗领域,视觉语言模型(LVLMs)在理解医学图像和基于这些图像以语言交互方式进行推理方面展现出了出色的能力。HealthGPT是一个强大的医学大型视觉语言模型,它在一个统一的自回归框架中整合了医学视觉理解和生成能力。该模型的开发旨在解决医疗领域视觉理解和生成任务的需求,通过逐步适应预训练的大型语言模型(LLMs)中的异构理解和生成知识来实现。HealthGPT的创建者是来自浙江大学、电子科技大学、阿里巴巴、香港科技大学和新加坡国立大学的研究人员,他们提出了一种名为异构低秩适应(H-LoRA)的创新技术,以有效地解决数据冲突问题。HealthGPT在医学视觉统一任务中展现出卓越的性能和可扩展性,为医疗应用提供了多功能性。为了训练HealthGPT,研究人员创建了一个名为VL-Health的全面医学领域特定理解和生成数据集,该数据集包括七个理解和五个生成任务,涵盖了从X射线、CT、MRI到显微镜、OCT、眼底和超声波等多种医学成像模态。HealthGPT的出现为医疗领域的视觉语言模型研究开辟了新的方向,并展示了其在解决复杂医疗场景中的多模态理解和生成任务方面的潜力。
当前挑战
HealthGPT面临的主要挑战包括:(1)高规模和高质量数据的限制:与开放世界的模型相比,医学数据在规模和质量上都存在显著差距,这为从零开始开发统一的医学模型带来了挑战;(2)理解和生成任务之间的冲突:理解和生成任务在视觉细节的处理上存在矛盾,理解任务通常抽象化视觉细节,而生成任务则需要保留详细的视觉信息,这使得模型在自回归多模态训练中难以保持一致性。为了应对这些挑战,HealthGPT采用了创新的H-LoRA技术,将理解和生成知识存储在独立的“插件”中,避免了联合优化问题。此外,HealthGPT还引入了分层视觉感知(HVP)和三阶段学习策略(TLS),以适应不同的任务需求,并通过混合任务训练来建立融合嵌入层和输出头,从而建立一个统一的LVLM基础。通过这些方法,HealthGPT有效地解决了医学视觉理解和生成任务中的数据冲突问题,并在多个指标上取得了与现有最先进模型相当或更好的性能。
常用场景
经典使用场景
VL-Health 数据集在医学视觉理解和生成任务中扮演着核心角色,支持 HealthGPT 模型进行多模态理解(包括 X 射线、CT、MRI、显微镜、OCT、眼底照片和超声波的视觉理解)和生成(包括 CT 到 MRI 的转换、MRI 到 CT 的转换、图像重建、超分辨率和报告到 X 射线图像的生成)。该数据集涵盖了丰富的医疗图像模态,为医学视觉语言模型的训练提供了坚实的基础。
解决学术问题
VL-Health 数据集解决了医学视觉语言模型训练中的关键问题,包括数据规模和质量限制、以及理解和生成任务之间的冲突。该数据集通过整合多种医学图像数据集,提供了大规模和高质量的训练样本,为医学视觉语言模型的训练提供了有力支持。同时,数据集的设计考虑了理解和生成任务之间的差异,有效缓解了任务冲突,提高了模型的性能。
实际应用
VL-Health 数据集在医学领域具有广泛的应用前景,可以支持医学诊断、治疗规划和医学教育等任务。例如,模型可以根据 X 射线图像生成报告,帮助医生进行诊断;还可以进行图像重建和超分辨率,提高医学图像的质量;此外,模型还可以用于医学教育和培训,帮助医学生和医生更好地理解和学习医学知识。
数据集最近研究
最新研究方向
HealthGPT 是一个融合了医学视觉理解和生成能力的统一医学大型视觉语言模型,旨在通过异构知识适应来提升医学图像处理的能力。该模型利用 VL-Health 数据集,这是一个为医学视觉理解和生成任务设计的综合数据集,包含多种医学图像模式,如 X 射线、CT、MRI 等,以及相应的理解和生成任务。HealthGPT 的创新之处在于其提出的异构低秩适应 (H-LoRA) 技术,该技术将理解和生成任务的知识存储在独立的模块中,避免了任务之间的冲突。此外,HealthGPT 还采用了层次视觉感知 (HVP) 和三阶段学习策略 (TLS),以更好地处理不同任务的需求。实验结果表明,HealthGPT 在医学视觉理解和生成任务中表现出色,超越了现有的医学特定模型和通用模型。这一研究成果对于医学图像处理、诊断和治疗规划等领域具有重要意义。
相关研究论文
  • 1
    HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation浙江大学, 电子科技大学, 阿里巴巴, 香港科技大学, 新加坡国立大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录