five

HelicoBacterDetection

收藏
arXiv2024-12-18 更新2024-12-20 收录
下载链接:
https://github.com/IAM-CVC/HelicoBacterDetection
下载链接
链接失效反馈
官方服务:
资源简介:
HelicoBacterDetection数据集由巴塞罗那自治大学计算机科学系创建,用于检测胃组织全切片图像中的幽门螺杆菌(H. pylori)。该数据集包含245个全切片图像,分为117个无幽门螺杆菌病例和128个有幽门螺杆菌病例,图像大小为120000x16000像素。数据集的创建过程包括从胃黏膜样本中提取256x256像素的滑动窗口,并由专家病理学家进行标注。该数据集主要用于开发自动检测幽门螺杆菌的计算机辅助诊断工具,旨在提高病理学家在诊断过程中的效率和准确性。

The HelicoBacterDetection Dataset was developed by the Department of Computer Science, Autonomous University of Barcelona, for the detection of Helicobacter pylori (H. pylori) in whole-slide images of gastric tissue. This dataset comprises 245 whole-slide images, categorized into 117 H. pylori-negative cases and 128 H. pylori-positive cases, with each image sized at 120000 × 16000 pixels. The dataset creation process includes extracting 256 × 256 pixel sliding windows from gastric mucosal samples, followed by manual annotation by expert pathologists. This dataset is primarily utilized for developing computer-aided diagnostic tools for automated Helicobacter pylori detection, with the goal of enhancing the efficiency and accuracy of pathologists during their diagnostic workflows.
提供机构:
巴塞罗那自治大学计算机科学系
创建时间:
2024-12-18
原始信息汇总

HelicoBacterDetection 数据集概述

数据集描述

HelicoBacterDetection 数据集用于检测免疫组织化学染色切片图像中的幽门螺杆菌(H. pylori)。该数据集利用自编码器学习健康区域的潜在模式,并通过假设自编码器在重建与幽门螺杆菌染色相关的红色通道时表现较差,从而在HSV空间中制定特定的重建误差度量。通过ROC分析设置该度量的最佳阈值,以及样本中阳性斑块的百分比来确定幽门螺杆菌的存在。

数据集内容

  • Python代码:提供了用于处理和分析该数据集的Python代码。
  • 样本数据:包含一个样本数据集。
  • 完整数据集:完整的数据集(约19 GB)包含注释,预计将很快提供下载。

数据集下载

  • 完整数据集的下载链接预计将提供在 此处
搜集汇总
数据集介绍
main_image_url
构建方式
HelicoBacterDetection数据集通过从245张全切片图像(WSI)中提取256x256像素的滑动窗口构建而成,这些图像来自胃黏膜活检样本,使用免疫组化染色技术进行染色。数据集包含1211个标注的图像块,其中仅有163个为阳性样本,用于训练和验证自动检测幽门螺杆菌(H. pylori)的方法。通过使用浅层自编码器(AE),该数据集旨在学习健康组织的染色模式,并通过重建误差检测异常染色区域,从而实现对H. pylori的检测。
特点
HelicoBacterDetection数据集的主要特点在于其有限的标注数据和高效的异常检测能力。数据集仅包含163个阳性样本,但通过自编码器的重建误差,能够有效识别出H. pylori感染的区域。此外,数据集的构建基于免疫组化染色技术,确保了染色的一致性和准确性,从而提高了检测的可靠性。
使用方法
HelicoBacterDetection数据集可用于训练和验证基于自编码器的幽门螺杆菌检测模型。用户可以通过下载数据集中的图像块和标注信息,使用浅层自编码器进行模型训练,并通过HSV颜色空间中的重建误差来检测异常染色区域。此外,数据集还提供了预训练的ResNet-18和ViT模型,用户可以进行迁移学习或直接使用这些模型进行比较分析。
背景与挑战
背景概述
HelicoBacterDetection数据集由Pau Cano、Eva Musulen和Debora Gil等研究人员于2024年创建,旨在解决幽门螺杆菌(Helicobacter pylori, H. pylori)在免疫组织化学染色(IHC)全切片图像中的检测问题。该数据集包含245张全切片图像(WSI),其中117张为无H. pylori的样本,其余样本中H. pylori的密度不同。该数据集的核心研究问题是如何在有限的标注数据下,利用自动编码器(AutoEncoder)检测H. pylori的异常染色模式。该数据集的发布为数字病理学领域提供了一个重要的资源,特别是在幽门螺杆菌检测方面,推动了计算机辅助诊断技术的发展。
当前挑战
HelicoBacterDetection数据集面临的挑战主要包括两个方面:首先,幽门螺杆菌的检测是一个高度依赖专家经验的任务,尤其是在低密度感染的情况下,手动标注的难度和时间成本极高。其次,数据集的构建过程中,由于H. pylori主要分布在组织样本的边缘区域,且全切片图像的尺寸巨大(120000x16000像素),导致标注工作极为繁琐。此外,有限的标注数据(仅163个阳性样本)使得模型训练变得复杂,如何在少量标注数据下实现高效且准确的检测成为该数据集的主要挑战。
常用场景
经典使用场景
HelicoBacterDetection数据集主要用于通过免疫组化全切片图像中的异常染色模式,自动检测幽门螺杆菌(H. pylori)。该数据集的经典使用场景是利用自动编码器(AutoEncoder)学习健康组织的潜在模式,并通过重建误差来检测异常染色区域,从而辅助病理学家快速识别感染区域。
解决学术问题
该数据集解决了在数字病理学中,由于幽门螺杆菌感染区域的稀疏性和专家标注数据的有限性,导致传统监督学习方法难以有效训练的问题。通过引入自动编码器,该数据集能够在有限的标注数据下,实现高效的异常检测,显著提升了检测的准确性和敏感性,为早期诊断和治疗提供了有力支持。
衍生相关工作
基于HelicoBacterDetection数据集,后续研究进一步探索了自动编码器在数字病理学中的应用,特别是在其他病原体检测和癌症病理图像分析中的潜力。此外,该数据集还启发了对半监督学习和弱监督学习方法的研究,尤其是在标注数据稀缺的情况下,如何利用生成模型进行异常检测和分类。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作