five

Polyp-Gen Dataset

收藏
github2024-09-16 更新2024-09-19 收录
下载链接:
https://github.com/CUHK-AIM-Group/Polyp-Gen
下载链接
链接失效反馈
官方服务:
资源简介:
Polyp-Gen数据集是一个用于内窥镜数据集扩展的真实且多样化的息肉图像生成数据集。该数据集包含55,883个样本,其中包括29,640个息肉帧和26,243个非息肉帧。数据集经过筛选,去除了低质量的图像,如模糊、反射和重影效果。

The Polyp-Gen dataset is a realistic and diverse polyp image generation dataset designed for endoscopic dataset augmentation. It contains 55,883 samples in total, including 29,640 polyp frames and 26,243 non-polyp frames. The dataset has been filtered to remove low-quality images such as blurry ones, those with reflections and ghosting artifacts.
创建时间:
2024-09-12
原始信息汇总

Polyp-Gen: Realistic and Diverse Polyp Image Generation for Endoscopic Dataset Expansion

数据集概述

  • 数据集名称: Polyp-Gen
  • 数据集描述: 用于内窥镜数据集扩展的真实和多样化息肉图像生成。
  • 数据集来源: 该模型基于LDPolypVideo数据集进行训练。
  • 数据集筛选: 过滤掉低质量图像,最终选择55,883个样本,包括29,640个息肉帧和26,243个非息肉帧。
  • 数据集下载: 数据集可从此处下载。

训练

  • 预训练模型: 使用Stable Diffusion Inpainting-2,可在Huggingface获取。
  • 训练脚本: 使用以下脚本进行训练: bash bash scripts/train.sh

采样

  • 采样示例: 展示了使用特定掩码进行采样的过程。

  • 检查点下载: 可以从此处下载Polyp_Gen的检查点。

  • 采样脚本: 使用以下脚本进行采样: bash python sample_one_image.py

  • 掩码提议器: 使用预训练的DINOv2权重,可在此处找到。

    • 全局检索: 构建数据库和全局检索: bash python GlobalRetrieval.py --data_path /path/of/non-polyp/images --database_path /path/to/build/database --image_path /path/of/query/image/

    • 局部匹配: 对查询图像进行局部匹配: bash python LocalMatching.py --ref_image /path/ref/image --ref_mask /path/ref/mask --query_image /path/query/image --mask_proposal /path/to/save/mask

    • 示例: 一个局部匹配的示例: bash python LocalMatching.py --ref_image demos/img_1513_neg.jpg --ref_mask demos/mask_1513.jpg --query_image demos/img_1592_neg.jpg --mask_proposal gen_mask.jpg

    • 使用生成的掩码进行采样: 使用生成的掩码进行采样。

致谢

  • 代码基础: 基于以下项目,感谢这些作者的贡献:
搜集汇总
数据集介绍
main_image_url
构建方式
在构建Polyp-Gen数据集时,研究者们采用了严格的筛选标准,从LDPolypVideo数据集中剔除了质量较低的图像,这些图像包括模糊、反射和重影等不良效果。最终,数据集精选了55,883个样本,其中包含29,640个息肉帧和26,243个非息肉帧。这一过程确保了数据集的高质量和多样性,为后续的模型训练提供了坚实的基础。
特点
Polyp-Gen数据集的显著特点在于其高度的真实性和多样性。通过精心筛选和处理,数据集中的图像不仅质量上乘,而且涵盖了多种息肉和非息肉情况,极大地丰富了数据集的多样性。此外,数据集的构建还结合了先进的生成模型,如Stable Diffusion Inpainting-2,进一步提升了数据集的实用性和创新性。
使用方法
使用Polyp-Gen数据集时,用户首先需要下载数据集并配置相应的环境。通过运行提供的脚本,用户可以训练自己的模型或直接使用预训练模型进行采样。数据集还提供了详细的步骤指南,包括全局检索和局部匹配,以帮助用户生成高质量的息肉图像。此外,数据集的下载和使用均提供了清晰的文档和示例,确保用户能够顺利进行操作。
背景与挑战
背景概述
在消化内镜领域,早期检测和诊断息肉(polyps)是预防结直肠癌的关键。然而,现有的内镜数据集在数量和质量上存在局限性,难以满足深度学习模型训练的需求。为此,Polyp-Gen数据集应运而生,由香港中文大学的研究人员主导开发。该数据集通过筛选和处理LDPolypVideo数据集中的55,883个样本,包括29,640个息肉帧和26,243个非息肉帧,旨在提供一个高质量、多样化的内镜图像生成平台。Polyp-Gen数据集的创建不仅填补了现有数据集的空白,还为内镜图像的生成和扩展提供了新的研究方向,对提升内镜诊断的准确性和效率具有重要意义。
当前挑战
尽管Polyp-Gen数据集在扩展内镜图像数据方面取得了显著进展,但其构建过程中仍面临诸多挑战。首先,数据筛选过程中需严格过滤低质量图像,如模糊、反射和重影效应,以确保数据集的高质量。其次,数据集的多样性要求在生成过程中保持图像的真实性和多样性,这对生成模型的设计提出了高要求。此外,数据集的扩展还需考虑隐私和伦理问题,确保患者信息的安全和合规性。最后,如何有效利用生成数据集进行模型训练,以提升内镜诊断的准确性,仍是一个亟待解决的研究问题。
常用场景
经典使用场景
在消化内镜领域,Polyp-Gen Dataset 被广泛用于生成逼真且多样化的息肉图像,以扩展现有内镜数据集。通过结合深度学习模型,如Stable Diffusion Inpainting-2,该数据集能够生成高质量的息肉图像,这些图像在形态和纹理上与真实息肉极为相似。这种生成能力使得研究人员能够在有限的真实数据基础上,创建更大规模、更多样化的训练集,从而提升内镜图像分析算法的性能和鲁棒性。
解决学术问题
Polyp-Gen Dataset 解决了内镜图像数据集在数量和多样性上的不足问题。传统的内镜数据集往往受限于采集成本和伦理问题,难以获得足够多样化的样本。该数据集通过生成逼真的息肉图像,有效扩充了数据集的规模,为研究者提供了丰富的训练数据,从而推动了内镜图像识别和分类算法的发展。此外,它还为研究深度学习模型在医学图像生成领域的应用提供了宝贵的实验平台。
衍生相关工作
基于Polyp-Gen Dataset,研究者们开发了多种内镜图像分析和生成模型。例如,一些研究利用该数据集训练深度学习模型,以实现更精确的息肉检测和分类。此外,该数据集还激发了在医学图像生成领域的进一步探索,如生成对抗网络(GANs)和变分自编码器(VAEs)的应用。这些衍生工作不仅提升了内镜图像分析的性能,还为医学图像生成技术的发展提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作