InfiMed-Foundation-1.7B, InfiMed-Foundation-4B

Name: InfiMed-Foundation-1.7B, InfiMed-Foundation-4B
Creator: 香港理工大学
Published: 2025-09-26 20:26:16
License: 暂无描述

arXiv2025-09-26 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/InfiX-ai/InfiMed-Foundation-4B

下载链接

链接失效反馈

官方服务：

资源简介：

InfiMed-Foundation数据集是两个医学专业的多模态大语言模型，旨在在医学应用中提供最先进的性能。该数据集结合了高质量的通用和医学多模态数据，并提出了一个新颖的五维质量评估框架来筛选高质量的多模态医学数据集。在持续预训练中，通过减少图像块数量和采用多模态序列打包来提高训练效率，从而能够整合大量的医学数据。此外，一个三阶段监督微调过程确保了复杂医学任务的有效知识提取。该数据集旨在解决医学领域中通用多模态大语言模型缺乏专业知识的问题，并通过高质量的数据集、高效的训练策略和领域特定知识的有效提取，为医疗保健领域提供了更可靠和有效的AI驱动解决方案。

The InfiMed-Foundation dataset underpins a multimodal large language model (LLM) designed for two medical specialties, targeting state-of-the-art performance in medical applications. It integrates high-quality general and medical multimodal data, and introduces a novel five-dimensional quality assessment framework to filter high-quality multimodal medical datasets. For continuous pre-training, training efficiency is improved by reducing the quantity of image patches and adopting multimodal sequence packing, thereby enabling the integration of massive volumes of medical data. Additionally, a three-stage supervised fine-tuning pipeline ensures effective knowledge extraction for complex medical tasks. This dataset aims to address the shortage of specialized domain knowledge in general-purpose multimodal large language models for the medical field, and delivers more reliable and effective AI-driven solutions for the healthcare sector via high-quality multimodal data, efficient training strategies, and effective extraction of domain-specific knowledge.

提供机构：

香港理工大学

创建时间：

2025-09-26

搜集汇总

数据集介绍

构建方式

在医学多模态大模型快速发展的背景下，InfiMed-Foundation系列通过创新数据构建方法实现了突破。研究团队联合医学专家开发了五维质量评估框架，从医学信息准确性、语言清晰度、对话完整性、医学影像相关性和实用性五个维度对数据进行专业筛选。通过整合高质量通用多模态数据与医学多模态数据，采用多模态序列打包技术将不同长度的样本重组至4096个令牌的上下文窗口内，显著提升了训练效率。同时运用自适应平均池化技术将图像块数量降至144个，在保持关键视觉特征的前提下有效降低了计算开销。

特点

该数据集在医学多模态领域展现出显著特色，其核心优势在于严格的医学专业质量控制机制。通过医学专家参与制定的五维评估体系，确保了数据在临床准确性、专业术语规范性和医学逻辑严谨性方面的高标准。数据集覆盖了病理学、放射学、药理学等多个医学子领域，包含CT、MRI、超声等多种影像模态，同时支持中英文双语交互。在数据分布设计上，通过跨分布指令适应策略平衡了不同医学专业领域的数据比例，避免了模型对高资源数据的过度拟合，增强了在复杂医学场景下的泛化能力。

使用方法

该数据集支持分阶段渐进式训练范式，为医学多模态模型开发提供了系统化解决方案。在预训练阶段，研究者可充分利用其大规模医学图像-文本对进行跨模态对齐，通过多模态序列打包技术优化计算资源利用。在监督微调阶段，数据集支持三阶段训练流程：首先通过通用指令跟随数据建立基础多模态理解能力，随后利用医学指令数据注入领域专业知识，最后通过跨分布指令适应确保模型在不同数据分布间的稳健性。这种分层训练方法使模型能够逐步掌握从基础视觉理解到复杂医学推理的全方位能力，为临床决策支持系统开发提供了可靠的数据基础。

背景与挑战

背景概述

随着多模态大语言模型在通用领域的快速发展，其在医疗专业领域的应用面临知识鸿沟与可靠性挑战。2025年由香港理工大学与InfiX.ai联合发布的InfiMed-Foundation系列模型，针对医学影像诊断与问答任务，构建了包含1.7B与4B参数的双版本架构。该研究通过融合高质量通用多模态数据与经专业评估的医学数据，建立了五维质量评估框架，并采用渐进式训练策略，在MedEvalKit基准测试中显著超越同类模型，为临床辅助决策提供了更可靠的AI支持。

当前挑战

该数据集需解决医学多模态任务中专业知识缺失与幻觉响应等核心问题。在构建过程中面临双重挑战：其一是医学数据质量控制的复杂性，需通过专业医师协作建立评估体系过滤低质量数据；其二是计算效率优化难题，通过多模态序列打包技术与自适应图像降采样策略，在保证模型性能的同时显著降低训练成本。此外，跨模态对齐过程中还需平衡通用能力与医学专业知识的融合，避免灾难性遗忘。

常用场景

经典使用场景

在医学人工智能领域，InfiMed-Foundation系列模型通过多模态序列打包和自适应图像降采样技术，显著提升了医学视觉问答任务的性能表现。该模型在MedEvalKit评估框架下展现出卓越的跨模态理解能力，尤其在处理CT、MRI等医学影像与自然语言问题的交互场景中，为临床诊断决策提供了可靠的技术支撑。

解决学术问题

该数据集有效解决了通用多模态大模型在医学领域存在的专业知识缺失与幻觉响应问题。通过五维质量评估框架构建的高质量医学数据集，结合三阶段监督微调策略，显著提升了模型在放射学、药理学等专业领域的知识提取精度，为医学人工智能的可信计算奠定了数据基础。

衍生相关工作

基于该数据集构建的模型架构催生了多项创新研究，包括采用感知重采样器的视觉令牌优化方案、基于指令跟踪的渐进式训练范式等。这些衍生工作进一步推动了医学多模态模型在计算效率与知识融合方面的突破，为后续MedGemma、Lingshu等医学大模型的发展提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集