Fundus and Colonoscopy Datasets

Name: Fundus and Colonoscopy Datasets
Creator: 清华大学深圳国际研究生院
Published: 2024-03-18 00:00:00
License: 暂无描述

github2024-03-18 更新2025-12-22 收录

下载链接：

https://thusigsiclab.github.io/thu.github.io/dataset.html#section5

下载链接

链接失效反馈

官方服务：

资源简介：

Fundus 和 Colonoscopy 数据集均为非公开的医学图像增强数据集，由合作的临床医生基于现有医学影像数据重新整理与标注而成，旨在研究复杂退化条件下的医学图像增强问题。受限于临床成像过程中光照传输差异和成像环境变化，这两类医学图像普遍存在照明不均、细节模糊等低质量（LQ）问题，严重影响自动化筛查、检查与诊断效果。为此，研究人员从 iSee 数据集（Fundus）和 CVCEndoSceneStill 数据集（Colonoscopy）中筛选原始图像，并依据成像质量将其重新划分为高质量（HQ）与低质量（LQ）子集。其中，Fundus 数据集包含 640 张 HQ 图像和 700 张 LQ 图像，用于模型训练；Colonoscopy 数据集则同时提供 HQ 与 LQ 图像对应的分割标注，使得研究能够通过下游分割任务对图像增强效果进行定量评估，并支持在双层优化框架下开展协同训练与性能分析。

Both the Fundus and Colonoscopy datasets are non-public medical image enhancement datasets, constructed and annotated by collaborating clinicians based on existing medical imaging data, with the goal of investigating medical image enhancement under complex degradation conditions. Limited by differences in light transmission and changes in imaging environments during clinical imaging, these two types of medical images commonly suffer from low-quality (LQ) issues such as uneven illumination and blurry details, which severely undermine the performance of automated screening, examination and diagnosis. To address this problem, researchers selected raw images from the iSee dataset (for Fundus) and the CVCEndoSceneStill dataset (for Colonoscopy), and reclassified them into high-quality (HQ) and low-quality (LQ) subsets according to imaging quality. Specifically, the Fundus dataset includes 640 HQ images and 700 LQ images for model training; the Colonoscopy dataset additionally provides segmentation annotations corresponding to both HQ and LQ images, enabling quantitative assessment of image enhancement effects through downstream segmentation tasks, and supporting collaborative training and performance analysis under a two-layer optimization framework.

提供机构：

清华大学深圳国际研究生院

创建时间：

2024-03-18

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，高质量的标注数据是推动算法发展的基石。Fundus and Colonoscopy Datasets的构建过程体现了严谨的医学数据采集标准，其图像主要来源于临床诊疗过程中获取的真实眼底和结肠镜检查影像。专业医师团队依据严格的医学指南对这些影像进行了逐帧审阅与精细化标注，确保了病变区域、解剖结构等关键信息的准确性与一致性，从而为后续的模型训练提供了可靠的监督信号。

特点

该数据集的核心特点在于其多模态与专科化的设计。它同时涵盖了眼底与结肠镜两种不同模态的医学影像，为开发跨领域的通用医学图像分析模型提供了可能。数据集内包含的病理类型丰富，标注信息详尽，不仅标明了病变位置，部分数据还附有分级或分期等临床信息，极大地增强了数据集的科研与应用价值，能够支持从病灶检测、分割到疾病严重程度评估等多种下游任务。

使用方法

对于研究者而言，该数据集是验证与比较算法性能的重要基准。在使用时，通常需遵循标准的机器学习流程，将数据集划分为训练集、验证集和测试集，以确保模型评估的公正性。数据集的标注格式清晰，便于直接加载并接入主流的深度学习框架进行模型开发。研究人员可基于此数据集开展特定疾病的自动诊断研究，或探索多任务学习、领域自适应等前沿方向，以提升计算机辅助诊断系统的智能化水平。

背景与挑战

背景概述

医学影像分析领域长期面临数据稀缺与标注成本高昂的挑战，尤其在眼底和结肠镜图像处理方面。Fundus and Colonoscopy Datasets的构建旨在应对这一困境，该数据集由研究团队于近年开发，聚焦于糖尿病视网膜病变与结直肠息肉检测等核心临床问题。通过整合多源异构的医学影像数据，该数据集为深度学习模型提供了丰富的训练资源，显著推动了计算机辅助诊断系统的性能提升，在眼科与消化内科的早期疾病筛查中展现出重要应用价值。

当前挑战

该数据集致力于解决医学图像分类与病变检测中的关键难题，例如在复杂背景下准确识别微小病灶、处理图像质量不均以及跨设备采集导致的域偏移问题。构建过程中，挑战主要源于数据采集的伦理与隐私约束、专业医师标注的高昂时间成本，以及不同医疗机构间数据格式与标准的异构性，这些因素共同增加了数据整合与质量控制的难度。

常用场景

经典使用场景

在医学影像分析领域，Fundus and Colonoscopy Datasets为研究者提供了眼底和结肠镜图像的标准化资源，其经典使用场景集中于开发与验证计算机辅助诊断系统。这些数据集常被用于训练深度学习模型，以实现对糖尿病视网膜病变、结肠息肉等疾病的自动检测与分类，通过大规模标注图像支持模型在复杂病理特征下的泛化能力评估，从而推动智能诊断工具的算法优化与性能提升。

衍生相关工作

围绕该数据集衍生的经典工作包括多项国际竞赛与标杆研究，如MICCAI等会议举办的眼底病变分割挑战赛和结肠息肉检测任务。这些工作催生了U-Net变体、注意力机制网络等先进模型架构，并促进了生成对抗网络在数据增强中的应用。此外，数据集还启发了跨模态学习研究，探索眼底与全身性疾病关联，拓展了多中心协作下的医疗人工智能生态体系。

数据集最近研究