OCTCube

Name: OCTCube
Creator: 华盛顿大学
Published: 2024-08-21 06:55:19
License: 暂无描述

arXiv2024-08-21 更新2024-08-23 收录

下载链接：

http://arxiv.org/abs/2408.11227v1

下载链接

链接失效反馈

官方服务：

资源简介：

OCTCube是由华盛顿大学开发的3D光学相干断层扫描（OCT）基础模型，包含26,605个3D OCT体积，总计1.62百万2D OCT图像。该数据集通过3D掩码自编码器进行预训练，旨在捕捉OCT图像的丰富3D结构。OCTCube的应用领域广泛，包括跨数据集、跨疾病、跨设备和跨模态分析，特别是在提高视网膜疾病诊断和预测的准确性方面展现出显著优势。

OCTCube is a 3D Optical Coherence Tomography (OCT) foundation model developed by the University of Washington. It contains 26,605 3D OCT volumes, totaling 1.62 million 2D OCT images. Pre-trained with 3D masked autoencoders, this dataset is designed to capture the rich 3D structures inherent in OCT images. OCTCube has wide-ranging applications covering cross-dataset, cross-disease, cross-device, and cross-modal analyses, and has demonstrated notable advantages in improving the accuracy of retinal disease diagnosis and prediction.

提供机构：

华盛顿大学

创建时间：

2024-08-21

搜集汇总

数据集介绍

构建方式

OCTCube数据集的构建基于三维掩码自动编码器（3D MAE），该模型利用FlashAttention技术降低了对GPU内存的需求，从而能够有效地对大型3D OCT数据集进行训练。具体来说，OCTCube首先将OCT体积分割成小的3D立方体，然后随机遮蔽90%的立方体，并使用编码器-解码器结构来重建这些被遮蔽的立方体。通过在26,605个OCT体积上进行训练，OCTCube能够获得一个高质量的编码器，该编码器可以为新的OCT体积提取准确的表示。在下游应用中，解码器将被丢弃，而编码器的参数将根据特定任务的标注进行更新，例如疾病标签。

特点

OCTCube数据集的特点在于其3D结构建模能力。相比于传统的2D OCT图像模型，OCTCube能够更好地捕捉连续的空间模式，从而在预测视网膜疾病和全身性疾病方面展现出更强的泛化能力。此外，OCTCube还能够在跨数据集、跨设备、跨疾病和跨模态分析中取得优异的性能，显示出其强大的泛化能力。

使用方法

使用OCTCube数据集的方法主要包括预训练和微调两个阶段。在预训练阶段，模型通过3D MAE框架学习高质量的特征表示。在微调阶段，模型根据特定任务的标注进行参数更新，从而实现疾病预测、跨数据集预测、全身性疾病预测、跨设备预测和跨模态分析等任务。OCTCube的编码器可以作为一个通用的特征提取器，为下游任务提供高质量的初始化，从而提高预测准确性和效率。

背景与挑战

背景概述

光学相干断层扫描（OCT）技术在视网膜疾病的诊断中发挥着至关重要的作用，因为它能够提供视网膜和视神经的三维图像。OCTCube数据集由华盛顿大学Paul G. Allen计算机科学与工程学院、眼科系以及Roger和Angie Karalis Johnson视网膜中心的研究人员开发。该数据集的核心研究问题是利用大规模的OCT图像训练能够泛化到各种诊断任务的模型，而现有的OCT基础模型仅考虑二维图像切片，忽略了丰富的三维结构。OCTCube在预测8种视网膜疾病方面优于二维模型，表明利用模型中的三维结构而不是二维数据可以显著提高性能。此外，OCTCube在跨设备预测和预测糖尿病和高血压等全身性疾病方面也表现出优异的性能，进一步证明了其强大的泛化能力。最后，研究人员提出了一个基于对比性自监督学习的OCT-IR预训练框架（COIP），用于OCT和红外视网膜（IR）图像的跨模态分析，其中OCT体积使用OCTCube嵌入。研究表明，COIP能够在OCT和IR面对面图像之间实现精确的对齐，为基于AI的视网膜疾病诊断铺平了道路。

当前挑战

OCTCube数据集面临的主要挑战包括：1) 如何计算模型的三维体积，因为简单地逐层汇总预测可能导致次优结果；2) 如何减少构建三维模型时GPU内存的使用，因为三维OCT体积会导致更长的序列，从而增加GPU内存消耗。为了解决这些问题，研究人员采用了3D掩码自编码器作为预训练框架，并利用FlashAttention技术来减少计算成本，从而能够高效地使用大规模三维体积训练OCTCube。此外，由于OCTCube是一个通用的和可泛化的基础模型，因此需要进一步研究如何将其与其他类型的视网膜图像（如眼底荧光素血管造影（FAF）、彩色眼底摄影（CFP）和荧光素血管造影（FA）图像）的多模态3D基础模型进行联合训练。

常用场景

经典使用场景

OCTCube 数据集作为光学相干断层扫描（OCT）的 3D 基础模型，其经典使用场景包括对视网膜疾病的诊断，如青光眼、糖尿病性黄斑水肿、年龄相关性黄斑变性等。通过对大量 3D OCT 数据的预训练，OCTCube 能够捕捉视网膜的三维结构信息，从而在预测视网膜疾病方面表现出色。此外，OCTCube 还可用于预测全身性疾病，如糖尿病和高血压，展示了其在多领域应用中的潜力。

衍生相关工作

OCTCube 数据集衍生了多种相关经典工作。例如，基于 OCTCube 的 COIP 框架可以实现对 OCT 和红外视网膜（IR）图像的跨模态分析，通过对比自监督学习方法学习 OCT 和 IR 图像之间的共享嵌入空间，从而实现跨模态检索和预测。此外，OCTCube 还可以与其他类型的视网膜图像，如眼底自发荧光（FAF）、彩色眼底摄影（CFP）和荧光素眼底血管造影（FA）图像进行联合建模，以更全面地描述视网膜，从而为下游应用提供更鲁棒的性能。

数据集最近研究