PolypDB
收藏arXiv2025-04-18 更新2025-04-22 收录
下载链接:
http://arxiv.org/abs/2504.13597v1
下载链接
链接失效反馈官方服务:
资源简介:
PolypDB是一个由三个国家的医疗中心合作创建的多中心、多模态息肉图像数据集,包含3934个图像和对应的高质量标注。数据集涵盖了五种不同的内镜成像模态,用于训练和评估息肉分割模型,旨在提高结直肠癌早期诊断的准确性。
PolypDB is a multi-center, multi-modal polyp image dataset collaboratively developed by medical centers from three countries. It contains 3934 images paired with corresponding high-quality annotations. The dataset covers five distinct endoscopic imaging modalities, and is designed for training and evaluating polyp segmentation models, aiming to improve the accuracy of early colorectal cancer diagnosis.
提供机构:
重庆邮电大学, 南达科他大学, 马拉维亚国家理工学院, 哈佛医学院, 歌德堡大学
创建时间:
2025-04-18
搜集汇总
数据集介绍

构建方式
PolypDB数据集的构建基于多中心和多模态的临床数据,涵盖了来自挪威、瑞典和越南三个医疗中心的3934张息肉图像及其对应的高质量标注掩膜。这些图像覆盖了五种内镜成像模态,包括蓝激光成像(BLI)、灵活光谱成像颜色增强(FICE)、联动颜色成像(LCI)、窄带成像(NBI)和白光成像(WLI)。所有标注均由胃肠病学专家验证,确保了数据的准确性和可靠性。数据集的划分采用了模态中心和医疗中心双重标准,以评估模型在不同成像条件和设备环境下的泛化能力。
特点
PolypDB数据集以其多模态和多中心特性脱颖而出,为息肉分割研究提供了丰富的临床多样性。该数据集不仅覆盖了五种不同的内镜成像技术,还包含了来自不同地理区域的医疗数据,能够有效模拟真实临床场景中的复杂性和变异性。此外,数据集中特别关注了小息肉和伪装性息肉的标注,弥补了现有数据集中对小目标检测的不足。高质量的专家标注和严格的验证流程进一步提升了数据集的可靠性,使其成为开发鲁棒性息肉分割算法的理想基准。
使用方法
PolypDB数据集支持两种主要的使用模式:模态中心评估和医疗中心评估。在模态中心模式下,研究者可以针对不同成像模态(如BLI、NBI等)分别训练和测试模型,以评估算法在特定成像技术下的性能。医疗中心模式则允许研究跨机构数据的泛化能力,特别关注设备差异对算法性能的影响。数据集提供了标准化的训练、验证和测试划分,并推荐使用Dice系数、mIoU等指标进行量化评估。此外,数据集的多样性使其非常适合用于迁移学习、领域适应和多模态融合等前沿研究方向。
背景与挑战
背景概述
PolypDB是由哈佛医学院、南达科他大学等机构的研究人员于2024年推出的多中心、多模态结直肠息肉分割数据集。该数据集包含来自挪威、瑞典和越南三个医疗中心的3,934幅息肉图像,涵盖蓝激光成像(BLI)、柔性光谱成像色彩增强(FICE)、联动染色成像(LCI)、窄带成像(NBI)和白光成像(WLI)五种内镜成像模态。作为首个系统性整合多模态临床数据的息肉分割基准,PolypDB旨在解决传统单模态模型在真实临床环境中的泛化局限,推动计算机辅助诊断系统的发展。该数据集通过严格的专家标注验证流程,为开发具有临床实用价值的智能分割算法提供了重要基础。
当前挑战
PolypDB面临的核心挑战体现在两个维度:在领域问题层面,多模态息肉分割需克服不同成像技术间的特征分布差异,如BLI强调血管模式而LCI突出表面纹理,这对模型的跨模态泛化能力提出严峻考验;在构建过程层面,数据集整合了三个医疗中心的异构数据,需协调不同采集设备的分辨率差异(0.1-1.2mm/pixel)、处理内镜成像特有的镜面反射和黏膜黏液干扰,同时保证五种模态间标注标准的一致性。此外,小尺寸息肉(<10mm)的精准标注及多中心数据脱敏处理也构成了显著的技术障碍。
常用场景
经典使用场景
在结直肠癌早期筛查领域,PolypDB数据集作为多模态、多中心的息肉分割基准库,其经典应用场景主要体现在内窥镜影像的智能分析。该数据集整合了BLI、FICE、LCI、NBI和WLI五种临床常用成像模态,为算法开发提供了模拟真实医疗环境的异构数据基础。研究者通常利用该数据集训练深度学习模型,通过像素级语义分割实现息肉区域的精准定位,尤其针对小型、扁平或伪装型息肉等易漏诊病例的检测具有显著价值。
解决学术问题
PolypDB有效解决了医学影像分析中的关键学术问题:其一,突破了传统单模态数据训练的局限性,通过多模态数据融合提升了模型在不同成像条件下的泛化能力;其二,其多中心采集特性缓解了医疗数据分布偏差问题,为研究模型跨机构适用性提供了实证基础。该数据集通过提供精确的专家标注掩膜,显著推进了息肉边缘分割精度的研究,相关成果在《Medical Image Analysis》等顶刊中被引用验证其对提升Dice系数等指标的贡献。
衍生相关工作
该数据集已衍生出多个里程碑式研究:PVT-CASCADE通过金字塔视觉Transformer架构在PolypDB上实现88.46%的mDSC指标;后续的Mamba-UNet创新性地引入状态空间模型,将小息肉分割精度提升9.8%;最新发布的RMAMamba-T则结合反向注意力机制,在跨中心测试中保持93.4%的稳定性能。这些工作共同推动了《IEEE TMI》2024年特刊关于多模态医学分析的专题研讨。
以上内容由遇见数据集搜集并总结生成



