five

Co-OCTDL

收藏
arXiv2025-11-07 更新2025-11-13 收录
下载链接:
https://www.kaggle.com/datasets/azdineh/c-dataset-2025
下载链接
链接失效反馈
官方服务:
资源简介:
OCTDL数据集包含2064张高分辨率光学相干断层扫描(OCT)图像,代表七种不同的疾病,并具有显著的类别不平衡。该数据集由医学专家进行标注,以确保诊断的可靠性。为了解决数据集不平衡的问题,研究人员构建了一个完美平衡版本的Co-OCTDL数据集,其中每个扫描都作为3x1布局的复合图像呈现。新的数据集Co-OCTDL通过将多个同类别图像融合成单个图像,提高了训练样本的信息密度,并增加了模型区分细微疾病模式的能力。

The OCTDL dataset contains 2064 high-resolution optical coherence tomography (OCT) images corresponding to seven distinct diseases, and exhibits significant class imbalance. This dataset was annotated by medical experts to guarantee the reliability of the diagnostic labels. To address the class imbalance issue of the original dataset, researchers constructed a perfectly balanced variant named Co-OCTDL, where each original OCT scan is presented as a composite image with a 3x1 layout. The newly developed Co-OCTDL dataset enhances the information density of training samples by fusing multiple images of the same class into a single composite image, and improves the model's ability to distinguish subtle disease patterns.
提供机构:
摩洛哥费斯西迪穆罕默德本阿卜杜拉大学(USMBA)多学科工程学院
创建时间:
2025-11-06
搜集汇总
数据集介绍
main_image_url
构建方式
在眼科影像分析领域,数据稀缺与类别不均衡常制约深度学习模型的诊断性能。Co-OCTDL数据集的构建基于类基输入图像合成技术,通过对原始OCTDL数据集中同一疾病类别的多幅高分辨率视网膜OCT图像进行算法组合,生成具有3×1布局的复合输入图像。该过程首先设定复合图像的维度结构,随后采用类基选择函数将图像按类别分组,并通过禁止样本重复使用与轻微旋转变换确保样本多样性,最终形成一个包含10,780个样本且完全类别平衡的新数据集。
使用方法
在医学影像诊断模型的开发流程中,Co-OCTDL数据集可作为直接替换原始OCTDL数据集的增强型训练资源。研究者需将复合图像输入标准卷积神经网络(如VGG16),并保持与原始实验一致的超参数设置以进行公平比较。该数据集支持五折交叉验证等评估协议,其平衡特性使得模型在训练过程中无需引入类别加权损失函数即可获得稳定性能。通过端到端的训练,该数据集能够显著提升模型在准确率、F1分数及AUC等关键指标上的表现,尤其适用于小样本与不均衡场景下的视网膜疾病分类任务。
背景与挑战
背景概述
在医学影像分析领域,深度学习模型常受限于数据规模与质量,尤其在小样本和类别不平衡场景下表现欠佳。Co-OCTDL数据集由HLALI Azzeddine等研究人员于2025年基于OCTDL数据集构建,聚焦于视网膜光学相干断层扫描图像的疾病分类问题。该数据集通过类别平衡重构技术,将原始2064张七类视网膜疾病图像转化为3×1布局的复合图像,显著提升了模型对AMD、糖尿病黄斑水肿等疾病的判别能力,为眼科AI诊断提供了高质量基准。
当前挑战
该数据集致力于解决视网膜疾病分类中因类别不平衡和样本稀缺导致的误诊问题,其核心挑战在于高相似度病变(如AMD与糖尿病视网膜病变)的视觉区分困难。构建过程中需克服原始数据分布倾斜的局限,通过复合图像生成算法实现类别平衡,同时确保合成样本的语义一致性与特征多样性,避免因图像重复组合引发的模型过拟合风险。
常用场景
经典使用场景
在眼科医学影像分析领域,Co-OCTDL数据集通过将同类视网膜OCT图像组合成3x1布局的复合样本,显著提升了深度学习模型对七种视网膜疾病的分类性能。该数据集特别适用于处理类别不平衡和小样本场景,其复合图像结构通过增强类内变异性和信息密度,使模型能够更精准地捕捉糖尿病黄斑水肿、年龄相关性黄斑变性等疾病的细微病理特征。
解决学术问题
该数据集有效解决了医学影像分析中因样本量不足和类别分布不均导致的模型泛化能力弱化问题。通过类基图像组合技术,它显著降低了假阳性和假阴性率,使VGG16模型在视网膜疾病分类任务中达到99.7%的准确率。这种输入层面的数据重构方法为处理高类间相似性的医学影像提供了新范式,突破了传统数据增强技术的局限性。
实际应用
在临床诊断场景中,Co-OCTDL可作为眼科AI辅助诊断系统的核心训练数据,其复合图像能有效模拟医生综合多幅影像进行诊断的决策过程。该技术已证明能大幅降低视网膜疾病误诊风险,特别适用于医疗资源匮乏地区的远程诊断系统,为糖尿病视网膜病变等致盲性疾病的早期筛查提供可靠的技术支撑。
数据集最近研究
最新研究方向
在医学影像分析领域,Co-OCTDL数据集的研究聚焦于解决小样本与类别不平衡的核心挑战。前沿探索主要围绕基于类别的输入图像合成技术展开,通过将同类多幅图像融合为结构化复合样本,显著增强类内变异性和信息密度。这一方向与当前生物医学影像中减少误诊率的热点紧密关联,特别是在视网膜疾病分类中,该方法通过提升模型对视觉相似病理的区分能力,推动了高精度诊断工具的发展。其影响体现在为资源受限的临床环境提供了轻量级数据优化方案,弥补了传统增强技术与复杂架构的局限性,为可信赖人工智能系统的临床集成奠定了坚实基础。
相关研究论文
  • 1
    通过摩洛哥费斯西迪穆罕默德本阿卜杜拉大学(USMBA)多学科工程学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作