PolypGen

Name: PolypGen
Creator: 牛津大学工程科学系生物医学工程研究所
Published: 2023-05-19 17:10:09
License: 暂无描述

arXiv2023-05-19 更新2024-06-21 收录

下载链接：

https://doi.org/10.7303/syn26376615

下载链接

链接失效反馈

官方服务：

资源简介：

PolypGen数据集是由牛津大学工程科学系生物医学工程研究所等机构合作创建，包含来自6个不同中心的超过300名患者的结肠镜检查数据。该数据集包含3762个带有精确标注的息肉边界标签，旨在评估和提高息肉检测和分割算法的泛化能力。PolypGen数据集适用于深度学习模型的训练和验证，特别是在解决跨中心数据差异和提高临床应用中的算法性能方面具有重要价值。

PolypGen dataset was collaboratively developed by the Institute of Biomedical Engineering, Department of Engineering Science, University of Oxford and other institutions. It contains colonoscopy data from over 300 patients across 6 distinct medical centers. The dataset includes 3,762 polyps with precisely annotated boundary labels, with the aim of evaluating and enhancing the generalization performance of polyp detection and segmentation algorithms. The PolypGen dataset is suitable for training and validating deep learning models, and is of great value especially in addressing cross-center data distribution discrepancies and improving algorithm performance in clinical applications.

提供机构：

牛津大学工程科学系生物医学工程研究所

创建时间：

2021-06-08

搜集汇总

数据集介绍

构建方式

PolypGen数据集的构建方式体现了多中心合作的优势。该数据集由来自六个不同中心的超过300名患者的结肠镜检查视频帧组成，涵盖了埃及、法国、意大利、挪威和英国的患者群体。每个中心都负责处理数据的伦理、法律和隐私问题。数据收集过程包括患者同意程序、数据收集计划审查和视频或图像帧的匿名化。数据集由单帧和连续短视频序列数据组成，包括息肉和正常粘膜的结肠镜检查采集。为了确保数据集的多样性和息肉发生的自然性，采用了单帧采样和序列帧采样两种方式。单帧数据包括每个患者视频中的不同视角，序列帧数据则包括可见和不可见的息肉帧。此外，正序列数据包含息肉和非息肉实例，而负序列数据仅包含正常粘膜的患者视频。

特点

PolypGen数据集的特点在于其多中心、多人口、多设备和多程序的数据构成，以及高质量的数据标注。该数据集包括来自六个中心的3762个阳性样本帧和来自四个不同医院的4275个阴性样本帧，涵盖了不同人口、内窥镜系统和息肉切除程序。数据集的标注由6名资深胃肠病学家、2名经验丰富的博士后研究员和1名博士研究生完成，并经过专家团队的交叉验证。数据集还提供了像素级的息肉边界标注，并由专家进行质量审查，以确保标注的准确性和可靠性。

使用方法

PolypGen数据集的使用方法灵活多样。数据集分为阳性样本和阴性样本，其中阳性样本又分为单帧和序列帧。用户可以根据自己的需求选择使用单帧数据、序列数据或两者结合。对于使用全卷积神经网络进行息肉检测和分割的方法，建议使用阳性样本。而对于利用时间信息的递归技术，可以使用正负序列数据。此外，数据集还提供了代码和评估指标，以帮助用户评估方法的泛化能力。用户在使用数据集时需要遵守Creative Commons CC-BY许可协议，并在研究成果中引用相关论文。

背景与挑战

背景概述

结直肠癌是全球癌症相关死亡的主要原因之一，而结肠息肉是结直肠癌的常见癌前病变。早期发现并移除结肠息肉是预防结直肠癌的关键。然而，人工结肠镜检查在息肉检测和分割方面存在局限性，例如漏诊率高和观察者间变异性大。PolypGen数据集的创建旨在解决这些问题，它是一个由六个独特的中心收集的包含超过300名患者的多中心息肉检测和分割数据集。该数据集包括单帧和序列数据，具有3762个精确标注的息肉标签，并由六位资深胃肠病学家验证。PolypGen数据集是迄今为止最全面的检测和像素级分割数据集，由计算科学家和资深胃肠病学家团队共同创建。该数据集的发布为算法开发和提供更具临床应用性的计算机辅助诊断（CAD）检测和分割提供了重要支持。

当前挑战

PolypGen数据集在解决结肠息肉检测和分割问题方面面临多项挑战。首先，该数据集需要解决领域问题，即如何准确地在结肠镜图像中检测和分割息肉。其次，在构建过程中，PolypGen数据集面临着多中心数据整合的挑战，需要确保数据的一致性和质量。此外，PolypGen数据集还面临着息肉分割的挑战，包括息肉大小、形态和表面结构的多样性，以及息肉在图像中的遮挡和背景干扰等问题。为了解决这些挑战，PolypGen数据集采用了多种数据收集和标注策略，并进行了严格的质量保证和技术验证。

常用场景

经典使用场景

PolypGen数据集由来自六个独特中心的超过300名患者的结肠镜检查数据组成，包括单帧和序列数据，共3762个经过精确标注的息肉标签，由六位高级胃肠病学家验证。该数据集旨在解决当前深度学习方法在息肉检测和分割方面的泛化能力不足的问题，为研究人员提供了一个多中心、多人群的数据集，用于开发和验证深度学习模型的泛化能力。

衍生相关工作

PolypGen数据集的建立衍生了许多相关的工作，包括：1. 在EndoCV2021挑战赛中，PolypGen数据集被用作训练数据，用于评估和比较不同深度学习模型在息肉检测和分割方面的性能；2. 研究人员使用PolypGen数据集探索了联邦学习的方法，以提高模型的泛化能力；3. PolypGen数据集的建立为其他相关领域的研究提供了参考和借鉴，如胃癌、食道癌等消化系统疾病的早期诊断和治疗。

数据集最近研究