MIRAGE

Name: MIRAGE
Creator: 奥地利维也纳医科大学
Published: 2025-06-11 17:38:22
License: 暂无描述

arXiv2025-06-11 更新2025-06-12 收录

下载链接：

https://github.com/j-morano/MIRAGE

下载链接

链接失效反馈

官方服务：

资源简介：

MIRAGE是一个多模态基础模型，用于全面分析光学相干断层扫描（OCT）和扫描激光眼底照相术（SLO）图像。该数据集包含来自维也纳医科大学Macula Clinic的Vienna Imaging Biomarker Eye Study（VIBES）注册中心的261,184个配对的多模态视网膜图像样本，包括OCT和SLO图像，以及通过自动方法生成的视网膜层标签。该模型使用配对的多模态掩码自动编码（MAE）方法进行预训练，旨在从同一图像的掩码版本中重建所有输入模态。该数据集旨在为开发用于OCT和SLO图像分析的强大AI系统提供基础。

MIRAGE is a multimodal foundation model designed for comprehensive analysis of optical coherence tomography (OCT) and scanning laser ophthalmoscopy (SLO) images. This dataset comprises 261,184 paired multimodal retinal image samples sourced from the Vienna Imaging Biomarker Eye Study (VIBES) registry at the Macula Clinic of the Medical University of Vienna, including OCT and SLO images, as well as retinal layer annotations generated via automated methods. This model is pre-trained using paired multimodal masked autoencoding (MAE) methodology, with the objective of reconstructing all input modalities from the masked versions of the corresponding images. This dataset aims to provide a foundational resource for developing robust AI systems for OCT and SLO image analysis.

提供机构：

奥地利维也纳医科大学

创建时间：

2025-06-10

原始信息汇总

MIRAGE 数据集概述

数据集简介

名称: MIRAGE (Multimodal foundation model for comprehensive retinal OCT image analysis)
类型: 多模态视网膜图像分析基础模型
数据形式: 光学相干断层扫描(OCT)、扫描激光检眼镜(SLO)图像及视网膜层自动生成标签
用途: 疾病分期、诊断、视网膜层和病变分割等任务

关键特性

模型架构:
- 基于MultiMAE架构和Vision Transformer(ViT)
- 提供两种规模: MIRAGE-Base和MIRAGE-Large
评估基准:
- 包含19个任务(来自14个公开数据集和2个私有数据集)
- 涵盖OCT和SLO分类与分割任务

技术细节

预训练: 采用多任务学习策略的多模态自监督学习
系统要求:
- 操作系统: Linux
- Python版本: 3.10.x
- PyTorch版本: 2.5.1 (CUDA 11.8)

可用资源

模型权重:
- MIRAGE-Base: 权重下载链接
- MIRAGE-Large: 权重下载链接
评估基准数据集:
- 公开可用数据集及数据划分
- 分割基准文档: segmentation_benchmark.md
- 分类基准文档: classification_benchmark.md

使用说明

快速开始: 使用prepare_env.py脚本设置环境
推理: 提供mirage_wrapper.py脚本进行单样本推理
调优: 提供分类和分割任务的调优代码

许可信息

许可证: CC-BY-NC-ND 4.0
限制: 仅限非商业学术研究使用

引用格式

bibtex @article{morano2025mirage, title={{MIRAGE}: A multimodal foundation model and benchmark for comprehensive retinal {OCT} image analysis}, author={José Morano and Botond Fazekas and Emese Sükei and Ronald Fecso and Taha Emre and Markus Gumpinger and Georg Faustmann and Marzieh Oghbaie and Ursula Schmidt-Erfurth and Hrvoje Bogunović}, journal={Preprint}, year={2025} }

搜集汇总

数据集介绍

构建方式

MIRAGE数据集通过多模态自监督学习方法构建，基于261,184对OCT和SLO图像样本，并辅以自动生成的视网膜层伪标签。数据来自维也纳生物标志物眼研究（VIBES）注册表，涵盖42,082名患者的视网膜图像。采用多模态MAE（Masked Autoencoder）预训练策略，通过随机掩码和重构任务学习跨模态特征表示，模型架构基于Vision Transformer（ViT），支持OCT和SLO图像的同时处理。

特点

MIRAGE是首个针对视网膜OCT/SLO图像分析的多模态基础模型，其特点包括：1）跨模态互补性，通过配对的多模态数据学习视网膜结构与病理特征的关联；2）任务通用性，支持分类（如AMD、青光眼诊断）和分割（视网膜层/病灶）任务；3）强泛化能力，在14个公开数据集和2个私有数据集的19项任务中表现优于现有模型；4）包含自动生成的视网膜层伪标签，增强模型对解剖结构的理解。

使用方法

使用MIRAGE需分三步：1）预训练模型加载：下载公开的ViT权重；2）下游任务适配：对于分类任务冻结编码器并微调线性层，分割任务则采用ConvNeXt解码器进行像素级预测；3）评估：支持线性探测（linear probing）和全微调策略，提供AUROC、Dice系数等指标。模型可处理单模态（仅OCT或SLO）或联合输入，代码与基准测试工具已在GitHub开源。

背景与挑战

背景概述

MIRAGE（Multimodal foundation model and benchmark for comprehensive retinal OCT image analysis）是由维也纳医科大学人工智能研究所和眼科部门的José Morano、Hrvoje Bogunović等研究人员于2025年提出的多模态基础模型。该模型专注于视网膜光学相干断层扫描（OCT）和扫描激光检眼镜（SLO）图像的综合分析，旨在解决眼科影像分析中模型泛化性不足、标注数据依赖性强等核心问题。MIRAGE通过自监督学习在26.1万对多模态视网膜图像上进行预训练，结合视网膜层伪标签，显著提升了分类和分割任务的性能。该数据集对眼科AI领域具有重要影响，为AMD、青光眼等视网膜疾病的早期诊断和治疗提供了可靠工具。

当前挑战

MIRAGE面临的挑战主要包括：1）领域问题方面：需解决多病种（如AMD、糖尿病视网膜病变）在跨设备、跨中心数据上的泛化性问题，以及小样本罕见病种的识别精度不足；2）构建过程方面：多模态数据配对难度大（如OCT-SLO对齐），伪标签生成算法在病理图像上的准确性受限，且3D OCT信息利用不足。此外，模型需平衡计算效率与性能，ViT-Large的3.07亿参数对临床部署提出挑战。

常用场景

经典使用场景

在视网膜疾病诊断领域，MIRAGE数据集通过多模态光学相干断层扫描（OCT）和扫描激光检眼镜（SLO）图像的联合分析，为年龄相关性黄斑变性（AMD）、糖尿病视网膜病变（DR）和青光眼等疾病的早期筛查与分期提供了标准化评估框架。其独特价值在于整合了来自14个公开数据集和2个私有数据集的261,184个配对样本，覆盖了18种视网膜层和病变标签的精细标注，支持从单一B扫描到三维体积数据的多尺度分析。

衍生相关工作

基于MIRAGE衍生的代表性工作包括：1）EyeFound多模态基础模型（Shi et al. 2024），扩展至荧光血管造影等5种模态；2）VLFATRollout三维Transformer架构（Oghbaie et al. 2024），实现全OCT体积的端到端分析；3）SD-LayerNet拓扑感知分割网络（Fazekas et al. 2025），将层状结构分割HD95指标降低至4.6μm。这些工作共同推动了《Nature Medicine》2025年特刊'AI in Retina'研究范式的转变。

数据集最近研究