Co-OCTDL

Name: Co-OCTDL
Creator: 摩洛哥费斯西迪穆罕默德本阿卜杜拉大学（USMBA）多学科工程学院
Published: 2025-11-07 14:35:50
License: 暂无描述

arXiv2025-11-07 更新2025-11-13 收录

下载链接：

https://www.kaggle.com/datasets/azdineh/c-dataset-2025

下载链接

链接失效反馈

官方服务：

资源简介：

OCTDL数据集包含2064张高分辨率光学相干断层扫描（OCT）图像，代表七种不同的疾病，并具有显著的类别不平衡。该数据集由医学专家进行标注，以确保诊断的可靠性。为了解决数据集不平衡的问题，研究人员构建了一个完美平衡版本的Co-OCTDL数据集，其中每个扫描都作为3x1布局的复合图像呈现。新的数据集Co-OCTDL通过将多个同类别图像融合成单个图像，提高了训练样本的信息密度，并增加了模型区分细微疾病模式的能力。

The OCTDL dataset contains 2064 high-resolution optical coherence tomography (OCT) images corresponding to seven distinct diseases, and exhibits significant class imbalance. This dataset was annotated by medical experts to guarantee the reliability of the diagnostic labels. To address the class imbalance issue of the original dataset, researchers constructed a perfectly balanced variant named Co-OCTDL, where each original OCT scan is presented as a composite image with a 3x1 layout. The newly developed Co-OCTDL dataset enhances the information density of training samples by fusing multiple images of the same class into a single composite image, and improves the model's ability to distinguish subtle disease patterns.

提供机构：

摩洛哥费斯西迪穆罕默德本阿卜杜拉大学（USMBA）多学科工程学院

创建时间：

2025-11-06

搜集汇总

数据集介绍

构建方式

在眼科影像分析领域，数据稀缺与类别不均衡常制约深度学习模型的诊断性能。Co-OCTDL数据集的构建基于类基输入图像合成技术，通过对原始OCTDL数据集中同一疾病类别的多幅高分辨率视网膜OCT图像进行算法组合，生成具有3×1布局的复合输入图像。该过程首先设定复合图像的维度结构，随后采用类基选择函数将图像按类别分组，并通过禁止样本重复使用与轻微旋转变换确保样本多样性，最终形成一个包含10,780个样本且完全类别平衡的新数据集。

使用方法

在医学影像诊断模型的开发流程中，Co-OCTDL数据集可作为直接替换原始OCTDL数据集的增强型训练资源。研究者需将复合图像输入标准卷积神经网络（如VGG16），并保持与原始实验一致的超参数设置以进行公平比较。该数据集支持五折交叉验证等评估协议，其平衡特性使得模型在训练过程中无需引入类别加权损失函数即可获得稳定性能。通过端到端的训练，该数据集能够显著提升模型在准确率、F1分数及AUC等关键指标上的表现，尤其适用于小样本与不均衡场景下的视网膜疾病分类任务。

背景与挑战

背景概述

在医学影像分析领域，深度学习模型常受限于数据规模与质量，尤其在小样本和类别不平衡场景下表现欠佳。Co-OCTDL数据集由HLALI Azzeddine等研究人员于2025年基于OCTDL数据集构建，聚焦于视网膜光学相干断层扫描图像的疾病分类问题。该数据集通过类别平衡重构技术，将原始2064张七类视网膜疾病图像转化为3×1布局的复合图像，显著提升了模型对AMD、糖尿病黄斑水肿等疾病的判别能力，为眼科AI诊断提供了高质量基准。

当前挑战

该数据集致力于解决视网膜疾病分类中因类别不平衡和样本稀缺导致的误诊问题，其核心挑战在于高相似度病变（如AMD与糖尿病视网膜病变）的视觉区分困难。构建过程中需克服原始数据分布倾斜的局限，通过复合图像生成算法实现类别平衡，同时确保合成样本的语义一致性与特征多样性，避免因图像重复组合引发的模型过拟合风险。

常用场景

经典使用场景

在眼科医学影像分析领域，Co-OCTDL数据集通过将同类视网膜OCT图像组合成3x1布局的复合样本，显著提升了深度学习模型对七种视网膜疾病的分类性能。该数据集特别适用于处理类别不平衡和小样本场景，其复合图像结构通过增强类内变异性和信息密度，使模型能够更精准地捕捉糖尿病黄斑水肿、年龄相关性黄斑变性等疾病的细微病理特征。

解决学术问题

该数据集有效解决了医学影像分析中因样本量不足和类别分布不均导致的模型泛化能力弱化问题。通过类基图像组合技术，它显著降低了假阳性和假阴性率，使VGG16模型在视网膜疾病分类任务中达到99.7%的准确率。这种输入层面的数据重构方法为处理高类间相似性的医学影像提供了新范式，突破了传统数据增强技术的局限性。

实际应用

在临床诊断场景中，Co-OCTDL可作为眼科AI辅助诊断系统的核心训练数据，其复合图像能有效模拟医生综合多幅影像进行诊断的决策过程。该技术已证明能大幅降低视网膜疾病误诊风险，特别适用于医疗资源匮乏地区的远程诊断系统，为糖尿病视网膜病变等致盲性疾病的早期筛查提供可靠的技术支撑。

数据集最近研究