PolypGen
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/sharib-vision/PolypGen-Benchmark
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是由专家精心策划的息肉分割数据集,包含了来自300多名不同患者的单帧图像和序列帧图像,这些图像来自六个不同的医疗中心。数据集不仅包括具有不同挑战的训练和测试集,而且重点关注了在不同中心和图像模态之间的泛化能力。规模上,数据集涵盖了超过300名独特患者,任务则是针对息肉分割。
This is a meticulously curated polyp segmentation dataset developed by domain experts. It comprises single-frame images and sequential video frames from over 300 unique patients, which were acquired from six distinct medical centers. The dataset provides both training and test sets with diverse clinical challenges, with a primary focus on generalization performance across different medical centers and imaging modalities. In terms of scale, the dataset encompasses over 300 unique patients, with the core task being polyp segmentation.
搜集汇总
数据集介绍

构建方式
在结直肠癌筛查领域,多中心数据集对于评估算法泛化能力至关重要。PolypGen数据集的构建依托于六个国际医疗中心的协作,涵盖超过300名患者的结肠镜检查资料。其构建过程严格遵循伦理规范,各中心独立完成患者知情同意与数据匿名化处理。数据采集兼顾单帧图像与视频序列,通过资深胃肠病学专家团队设计标准化采样协议,确保涵盖不同视角、息肉可见性状态及解剖背景,最终形成包含3762个带标注息肉样本与4275个阴性样本的综合性数据集。
特点
PolypGen数据集的核心特征在于其卓越的多样性与临床代表性。数据集汇集了来自埃及、法国、意大利、挪威和英国等多个地理区域、不同内镜设备与患者群体的数据,有效涵盖了息肉形态、尺寸、表面结构及成像条件的广泛变异。数据包含单帧图像与连续视频序列,其中序列数据模拟了真实检查中息肉出现与消失的动态过程。所有息肉边界均经过像素级精细标注,并由六位资深胃肠病学家交叉验证,确保了标注的临床准确性与一致性。这种多中心、多模态的结构为评估计算机辅助诊断系统在异质数据上的泛化性能提供了理想基准。
使用方法
该数据集适用于开发与验证息肉检测与分割算法,尤其侧重于评估模型在未见数据上的泛化能力。研究者可依据自身需求灵活划分训练与测试集,例如采用中心外样本验证策略,将部分中心数据用于训练,其余中心用于测试,以模拟临床跨中心应用场景。数据集支持传统卷积神经网络与联邦学习框架,其序列数据亦适用于利用时序信息的递归模型。官方提供了基准代码与数据分割建议,便于进行标准化性能比较。数据以标准文件夹结构组织,包含原始图像、分割掩膜、边界框标注及可视化叠加图像,遵循CC-BY许可,仅供教育与研究用途。
背景与挑战
背景概述
结直肠癌作为全球高发恶性肿瘤,其早期筛查依赖于结肠镜对息肉的精准识别。然而,现有息肉检测与分割算法普遍面临泛化能力不足的困境,主要源于缺乏涵盖多中心、多人群的高质量标注数据集。在此背景下,由牛津大学、利兹大学、奥斯陆大学等国际顶尖研究机构联合六所医疗中心,于2023年共同构建了PolypGen数据集。该数据集汇聚了来自埃及、法国、意大利、挪威和英国超过300名患者的结肠镜影像,包含3762个经六位资深胃肠病学家验证的像素级息肉标注样本,涵盖单帧图像与连续视频序列。其核心研究目标在于为计算机辅助诊断系统提供具有临床多样性的基准数据,以推动跨中心、跨设备泛化模型的开发,从而降低息肉漏诊率并提升结肠癌早期干预效率。
当前挑战
PolypGen数据集致力于解决结肠镜影像中息肉检测与分割的领域挑战,包括息肉形态的高度异质性(如平坦型、带蒂型息肉)、影像中存在的遮挡、光照反射及黏膜纹理干扰等问题。在构建过程中,研究团队面临多重技术挑战:其一,多中心数据整合需协调不同医疗机构的伦理审查、数据匿名化协议与设备差异;其二,像素级标注要求极高的一致性,团队通过制定精细化标注协议并引入多位专家交叉验证,以应对息肉边界模糊、微小病灶难以辨识等标注难题;其三,数据分布的不均衡性(如息肉尺寸、出现频率的差异)要求设计合理的中心划分策略,以客观评估模型在未知人群与设备下的泛化性能。
常用场景
经典使用场景
在结直肠癌筛查领域,结肠镜检查是识别癌前病变——息肉的关键手段。PolypGen数据集作为多中心、大规模标注资源,其经典使用场景聚焦于训练和验证深度学习模型,以实现息肉检测与分割的自动化。该数据集通过整合来自六个医疗中心的3762个标注息肉样本,涵盖单帧图像与视频序列,为算法开发提供了丰富的形态学变异和临床多样性,从而支持模型在真实世界场景中的泛化能力评估。
实际应用
在实际临床环境中,PolypGen数据集为开发实时结肠镜辅助系统奠定了数据基础。此类系统可集成于内镜平台,实时高亮显示息肉边界,辅助医师提升病变检出率并减少漏诊。数据集涵盖的序列数据模拟了检查过程中息肉的动态出现与消失,有助于训练时序模型以识别易被忽略的扁平或微小息肉,从而在早期癌症筛查中发挥关键作用,降低结直肠癌的发病风险。
衍生相关工作
基于PolypGen数据集,多项经典研究工作得以推进,尤其在泛化性评估与联邦学习领域。例如,EndoCV2021挑战赛利用该数据子集系统比较了多种分割架构(如U-Net、DeepLabV3+)的跨中心性能。后续研究进一步探索了联邦学习框架,使模型能在保护数据隐私的前提下聚合多中心特征,提升泛化能力。这些工作共同推动了结肠镜AI技术向临床可靠应用迈进。
以上内容由遇见数据集搜集并总结生成



