UniMed-5M
收藏Hugging Face2026-02-05 更新2026-02-07 收录
下载链接:
https://huggingface.co/datasets/General-Medical-AI/UniMed-5M
下载链接
链接失效反馈官方服务:
资源简介:
UniMed-5M是一个统一的医学多模态数据集,用于训练和评估UniMedVL模型,该模型支持跨8种医学成像模态的医学图像生成。数据集分为多个部分,当前提供的Part 1包含用于不同医学成像任务的Parquet元数据文件。Part 1包含以下数据集:IXI数据集(218,528个样本,用于T1/T2 MRI的4倍超分辨率)、SynthRAD2023(107,936个样本,用于脑部和骨盆的双向CT↔MR合成)、BraTS 2023(51,528个样本,用于T1、T2、FLAIR、T1ce等多模态合成)、DRIVE(40个样本,用于视网膜血管分割)以及BCI(HE2IHC,3,896个样本,用于乳腺癌病理学的虚拟染色)。数据集本身仅提供Parquet格式的元数据文件,原始图像需从官方来源下载。数据集遵循Apache License 2.0许可,但各源数据集保留其原始许可。
UniMed-5M is a unified medical multimodal dataset intended for training and evaluating the UniMedVL model, which supports medical image generation across 8 medical imaging modalities. The dataset is split into multiple parts, and the currently available Part 1 contains Parquet-format metadata files for diverse medical imaging tasks. Part 1 encompasses the following datasets: IXI Dataset (218,528 samples, for 4× super-resolution of T1/T2 MRI), SynthRAD2023 (107,936 samples, for bidirectional CT↔MR synthesis of brain and pelvic regions), BraTS 2023 (51,528 samples, for multimodal synthesis of T1, T2, FLAIR, T1ce and other modalities), DRIVE (40 samples, for retinal blood vessel segmentation), and BCI (HE2IHC, 3,896 samples, for virtual staining of breast cancer histopathology). The dataset only provides metadata files in Parquet format, and the raw images must be downloaded from their respective official sources. This dataset is licensed under Apache License 2.0, while each original source dataset retains its own licensing terms.
创建时间:
2026-02-03
搜集汇总
数据集介绍

构建方式
在医学影像分析领域,数据集的构建往往面临模态多样性与数据分散的挑战。UniMed-5M数据集通过整合多个公开医学影像数据集,构建了一个统一的多模态资源库。其核心构建方式在于精心组织元数据:数据集以Parquet格式文件提供结构化元信息,将来自IXI、SynthRAD2023、BraTS 2023、DRIVE和BCI等五个权威来源的医学影像数据,按照生成与合成任务进行分类与关联。这种设计使得研究者能够基于统一的元数据框架,追溯并获取分布在原始发布平台的影像文件,从而在尊重各源数据集许可协议的前提下,实现了跨模态、跨任务数据的系统性汇集。
特点
医学影像人工智能的发展亟需能够支撑复杂跨模态任务的大规模基准数据。UniMed-5M的显著特点在于其规模性与任务导向的统一性。该数据集囊括了超过38万条样本,覆盖了磁共振成像、计算机断层扫描、病理切片及眼底图像等八种关键医学影像模态。其独特价值在于专门服务于医学图像的生成与合成任务,例如超分辨率重建、跨模态转换以及虚拟染色等,为训练如UniMedVL之类的统一医学多模态模型提供了直接的任务驱动型数据支持。这种以特定高级视觉任务为核心的数据组织方式,在医学多模态数据集中颇具前瞻性。
使用方法
对于旨在探索医学图像生成与跨模态理解的研究者而言,有效利用UniMed-5M数据集需要遵循特定的流程。首先,用户需通过Hugging Face的`datasets`库加载数据集的Parquet元数据文件,这些文件包含了图像路径、任务标签等关键信息。然而,数据集本身不包含原始像素数据,因此核心步骤在于根据元数据中的指引,分别访问各源数据集的官方发布平台,完成用户注册、协议接受及图像下载。随后,研究者需要将本地下载的图像文件路径与Parquet文件中的引用进行匹配,以构建完整可用的数据管道。这种分离元数据与实体数据的设计,既保障了数据使用的合规性,也赋予了研究者灵活配置本地存储结构的能力。
背景与挑战
背景概述
在医学人工智能领域,多模态数据的整合与分析是推动精准医疗发展的核心驱动力。UniMed-5M数据集由General-Medical-AI团队于2025年构建,旨在为统一医学多模态模型UniMedVL提供训练与评估资源。该数据集聚焦于跨八种医学影像模态的图像生成任务,核心研究问题在于如何统一处理异构的医学视觉与语言信息,以支持复杂的医疗图像合成与理解。其整合了IXI、SynthRAD2023、BraTS 2023等多个权威公开数据集,涵盖了从磁共振成像超分辨率到病理切片虚拟染色等多种关键应用,显著促进了医学影像生成模型的标准化与性能提升,为后续的临床辅助诊断研究奠定了坚实的数据基础。
当前挑战
UniMed-5M数据集致力于解决医学多模态图像生成领域的核心挑战,包括跨模态医学影像的合成与转换,例如CT与MRI之间的双向生成、不同MRI序列的模态翻译等。这些任务对模型的保真度与临床可用性提出了极高要求。在数据集构建过程中,研究者面临多重困难:首先,原始医学数据来源分散,需协调IXI、SynthRAD2023等异构数据集的授权协议与访问权限,部分数据如BCI还需学术审批;其次,数据集仅提供Parquet格式元数据,用户必须自行从原始出处下载图像并进行路径匹配,这增加了数据准备的技术复杂度;此外,确保不同模态数据在格式、分辨率与标注标准上的一致性,亦是维持数据集质量与实用性的关键障碍。
常用场景
经典使用场景
在医学影像分析领域,UniMed-5M数据集为跨模态图像生成任务提供了统一且规模化的基准。该数据集整合了MRI、CT、病理切片等多种成像模态,特别适用于训练和评估如UniMedVL这类统一医学多模态模型。研究人员能够利用其丰富的样本,系统探索从超分辨率重建到模态转换的生成任务,例如将低分辨率MRI提升至高清晰度图像,或将CT扫描合成为对应的MR影像,从而推动医学图像合成技术的边界。
实际应用
该数据集的实际价值体现在辅助临床诊断与医学研究的工作流程中。基于UniMed-5M训练的模型,能够生成高质量的合成医学影像,用于数据增强以改善下游诊断模型的鲁棒性,或在缺乏特定模态设备时提供替代性影像参考。例如,在神经影像学中,模型可实现脑部CT与MRI的相互合成,辅助放射科医生进行更全面的病灶分析。此外,病理图像的虚拟染色技术有望简化实验室流程,提升乳腺癌等疾病的病理评估效率。
衍生相关工作
UniMed-5M直接支撑了其同名研究UniMedVL模型的开发,该模型旨在统一医学多模态的理解与生成能力。围绕该数据集衍生的经典工作,主要集中在探索大规模多模态预训练对医学图像生成质量的提升,以及如何将不同成像任务的先验知识进行有效融合。这些研究不仅验证了统一框架在多种医学成像任务上的有效性,也为后续构建更通用、更高效的医学人工智能系统提供了重要的方法论参考和性能基准。
以上内容由遇见数据集搜集并总结生成



