five

内窥镜逆行胰胆管造影(ERCP)图像数据集

收藏
arXiv2026-01-23 更新2026-01-27 收录
下载链接:
https://doi.org/10.6084/m9.figshare.31079236
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是由葡萄牙圣卢西亚医院和米尼奥大学等机构联合创建的内窥镜逆行胰胆管造影(ERCP)图像集合,旨在填补公共ERCP数据集的空白。数据集包含19018张原始图像和19317张处理后的图像,来自1602名患者,其中5519张图像带有标注,涵盖胆道结石、胆漏、良恶性狭窄等临床相关类别。数据通过多阶段Python处理流程进行组织、提取、分割和匿名化,适用于监督学习、半监督学习和迁移学习等任务。该数据集的应用领域包括自动ERCP分析、胆胰疾病诊断以及医学教育和计算机视觉研究,旨在推动人工智能在胃肠病学中的应用。

This dataset is a collection of Endoscopic Retrograde Cholangiopancreatography (ERCP) images jointly created by Hospital de Santa Luzia, University of Minho and other institutions in Portugal, aiming to fill the gap in publicly available ERCP datasets. It contains 19,018 raw images and 19,317 processed images collected from 1,602 patients. Among them, 5,519 images are annotated, covering clinically relevant categories such as biliary calculi, biliary leakage, benign and malignant strictures, and other related conditions. The dataset is organized, extracted, segmented and anonymized via a multi-stage Python processing pipeline, and is suitable for tasks such as supervised learning, semi-supervised learning and transfer learning. Its application areas include automated ERCP analysis, diagnosis of biliopancreatic diseases, medical education and computer vision research, and it aims to promote the application of artificial intelligence in gastroenterology.
提供机构:
圣卢西亚医院·胃肠病学部门; 米尼奥大学·算法中心/LASI; 杜伊斯堡-埃森大学·医学人工智能研究所; 米尼奥大学·生命与健康科学研究院; ICVS/3B's - PT政府联合实验室
创建时间:
2026-01-23
搜集汇总
数据集介绍
main_image_url
构建方式
在消化内镜领域,内窥镜逆行胰胆管造影(ERCP)作为诊断与治疗胰胆疾病的关键技术,其影像数据的稀缺性长期制约着人工智能辅助诊断的发展。为填补这一空白,本研究构建了一个大规模、经过严格筛选的ERCP图像数据集。数据来源于一家三级医疗中心2015年至2025年间临床存档的DICOM文件,通过SECTRA PACS系统进行回顾性提取。原始数据包含来自1,602名患者的19,018张原始图像,并经由经验丰富的胃肠病学家进行人工审查与标注。针对不同荧光透视系统产生的图像异质性,数据集实施了标准化预处理流程:首先对图像进行手动分类,区分单帧图像与垂直多帧复合图像;随后采用基于Canny边缘检测与概率霍夫变换的自动化分割算法,将复合图像分解为独立的诊断帧;最后通过几何变换与标识符替换完成彻底的去标识化处理,生成包含19,317张图像的最终处理版本,其中5,519张图像带有由专家标注的病理类别标签。
特点
该数据集的核心特征在于其规模性与临床严谨性。作为目前公开领域内规模较大的ERCP荧光透视图像集合,它涵盖了胆道结石、胆漏、良性狭窄、恶性狭窄及正常表现等多种临床相关类别,为胰胆疾病的计算机辅助诊断研究提供了丰富的素材。数据集的结构设计体现了高度的实用性,同时提供原始图像与经过分割、去标识化的处理图像,并配备详尽的元数据文件,记录了患者匿名标识、图像类型、设备型号及专家标注标签等信息。尤为突出的是其标注质量,所有标注均由两名拥有五年以上ERCP经验的胃肠病学家独立完成,并由一名资深临床专家进行复核,确保了标签的准确性与可靠性。这种多层次的质控机制,使得该数据集不仅适用于监督学习,也为半监督、弱监督学习及模型迁移提供了可靠的基础。
使用方法
该数据集为ERCP影像的智能化分析设立了可复现的基准。研究人员可通过Figshare公开仓库获取数据,并利用随附的GitHub代码库复现完整的图像预处理流程。数据集的结构支持多样化的机器学习任务:标注子集可直接用于开发图像分类模型,区分不同的胰胆病理状态;完整的图像集合则可用于探索数据增强、半监督学习或迁移学习策略,以提升模型在有限标注数据下的性能。在技术验证中,研究团队已基于该数据集对多种深度学习架构进行了基准测试,证明了其用于模型训练与评估的有效性。此外,数据集还可作为内镜与放射科医师的培训资源,或用于计算机视觉研究者的跨学科教育,推动ERCP影像解释与人工智能应用的综合发展。
背景与挑战
背景概述
内窥镜逆行胰胆管造影(ERCP)作为诊断与治疗胆胰疾病的关键介入技术,其影像数据的稀缺性长期制约着人工智能在该领域的应用发展。由葡萄牙圣卢西亚医院与米尼奥大学等机构的研究团队于2026年发布的ERCP图像数据集,旨在填补这一空白。该数据集收录了来自1602名患者的19018张原始荧光透视图像,并经过专业胃肠病学专家的人工标注与校验,构建了包含胆道结石、胆漏、良恶性狭窄等病理类别的标准化影像资源。其核心价值在于为ERCP影像的自动分析提供了首个大规模公开基准,推动了计算机视觉与介入内镜学的交叉研究,对提升胆胰疾病诊断自动化水平具有里程碑意义。
当前挑战
该数据集致力于解决ERCP荧光透视图像自动分析的领域挑战,包括病理分类、病灶检测与手术质量评估等任务。然而,医学影像固有的异质性构成了显著障碍:图像来源于多种荧光透视系统,导致分辨率、对比度及图像结构存在显著差异,部分图像呈现垂直多帧复合形态,需经过复杂的分割预处理。构建过程中的挑战主要体现在数据标准化与质量控制方面,研究人员需设计自动化管道对复合图像进行分区,并依赖资深临床专家进行多轮人工标注与校验,以确保诊断标签的准确性与一致性。此外,医疗数据的匿名化处理与多中心数据稀缺性,进一步增加了构建高质量、可泛化数据集的复杂性。
常用场景
经典使用场景
在消化内镜领域,内窥镜逆行胰胆管造影(ERCP)图像数据集为人工智能驱动的医学影像分析提供了关键资源。该数据集最经典的使用场景在于构建和验证深度学习模型,用于自动识别胰胆管疾病。研究者利用其标注的5,519张图像,训练卷积神经网络如EfficientNet-B7等架构,实现胆道结石、胆漏、良恶性狭窄等病变的精准分类。这种应用不仅推动了计算机视觉技术在ERCP影像中的落地,也为标准化诊断流程的建立奠定了基础。
解决学术问题
该数据集有效解决了胰胆管影像分析中数据稀缺与标准缺失的学术难题。传统ERCP研究多依赖小规模单中心数据,导致模型泛化能力受限且可重复性差。本数据集通过提供大规模、经专家标注的荧光透视图像,为机器学习方法提供了可靠基准。它支持图像分类、病变检测等核心任务,促进了跨中心验证与模型比较研究,从而加速了人工智能在介入内镜领域的规范化发展。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在深度学习模型的优化与临床预测工具的探索。例如,研究者利用其开展胆道恶性狭窄的自动检测算法开发,并结合迁移学习技术适配其他医学影像模态。此外,数据集还支撑了术后胰腺炎风险预测等临床辅助系统的构建,这些工作不仅拓展了ERCP影像的智能分析边界,也为后续多中心协作与标准化评估框架的建立提供了重要参考。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务