SPIDER (Supervised Pathology Image-DEscription Repository)

Name: SPIDER (Supervised Pathology Image-DEscription Repository)
Creator: HistAI
Published: 2025-03-05 02:57:12
License: 暂无描述

arXiv2025-03-05 更新2025-03-06 收录

下载链接：

https://github.com/HistAI/SPIDER

下载链接

链接失效反馈

官方服务：

资源简介：

SPIDER数据集是由HistAI机构创建的综合多器官监督病理学图像数据集，包含皮肤、结直肠癌和胸腺三个器官类型，每个器官都有全面的类别覆盖。该数据集由专家病理学家验证的高质量注释组成，并包括周围的上下文补丁，以提供空间上下文增强分类性能。

SPIDER dataset is a comprehensive multi-organ supervised histopathology image dataset developed by HistAI. It covers three organ types: skin, colorectal cancer, and thymus, with comprehensive category coverage for each organ. This dataset consists of high-quality annotations verified by expert pathologists, and also includes surrounding context patches to provide spatial context for enhancing classification performance.

提供机构：

HistAI

创建时间：

2025-03-05

搜集汇总

数据集介绍

构建方式

SPIDER数据集的构建过程始于对原始的全切片图像（WSIs）进行专家级标注，接着从中提取中心为224×224像素的图像块，并伴随24个相同大小的周围上下文图像块，共同形成一个1120×1120像素的区域。专家病理学家对每个图像块进行标注，确保了标注的高质量。此外，每个图像块还包括一个类标签。为了确保数据的质量，病理学家还进行了二元验证，以确定中心图像块是否属于目标类别。

特点

SPIDER数据集是一个多器官的监督病理学图像描述库，包含皮肤、结直肠和胸部等多个器官类型的图像块。它具有全面的类覆盖范围，每个器官都有详细的类别划分。数据集的特点包括高质量标注、包含周围上下文图像块以及大规模的数据量。这使得数据集能够提供更丰富的训练和评估病理学分类模型。

使用方法

SPIDER数据集可用于训练和评估病理学分类模型。用户可以将数据集用于监督学习任务，如病理图像分类。此外，数据集还可以用于研究模型如何利用周围上下文信息来提高分类准确性。用户可以使用提供的基准模型作为起点，进一步研究和开发数字病理学模型。

背景与挑战

背景概述

SPIDER数据集的创建旨在解决计算病理学领域中对大规模、高质量和多样化数据集的需求。由HistAI团队于2025年推出，该数据集是迄今为止最大的公开可用的多器官病理图像描述库，涵盖了皮肤、结直肠和胸腔等多种器官类型。SPIDER数据集的特色在于其广泛的类别覆盖和由专家病理学家验证的高质量注释，以及每个器官周围的环境斑块，这些斑块通过提供空间上下文来提高分类性能。此外，SPIDER数据集还提供了基于Hibou-L基础模型的基准模型，这些模型在多个组织类别中实现了最先进的性能，为未来的数字病理学研究提供了强大的基准。

当前挑战

尽管SPIDER数据集为计算病理学领域带来了显著的进步，但仍然存在一些挑战。首先，在解决领域问题方面，SPIDER数据集旨在通过提供多器官和多类别数据来克服现有数据集的局限性，但如何确保数据集的多样性和代表性仍然是一个挑战。其次，在构建过程中，确保数据的质量和一致性是一个重要的挑战，特别是当涉及专家注释时。此外，随着计算病理学领域的不断发展，新的技术和方法可能会出现，需要SPIDER数据集不断更新和扩展以保持其相关性和有效性。

常用场景

经典使用场景

SPIDER数据集在病理学图像分析中扮演着重要角色，特别是在皮肤、结直肠和胸腔等多个器官的病理图像分类任务中。该数据集为研究人员提供了一个包含大量高质量注释的图像库，使得模型能够学习并识别各种组织类型和病理状态。通过利用SPIDER，研究人员可以训练和评估他们的模型在识别肿瘤、炎症、坏死和其他病理特征方面的性能，从而推动病理学诊断的自动化和精确化。

解决学术问题

SPIDER数据集解决了现有公开数据集在器官多样性、类别覆盖范围或注释质量方面的局限性。通过提供包含多个器官类型的图像，以及每个器官的全面类别覆盖，SPIDER为病理学图像分类和分割任务提供了一个更广泛和更详细的训练数据集。此外，SPIDER的注释经过专家病理学家的验证，确保了注释的高质量，从而提高了模型的准确性和可靠性。

衍生相关工作

SPIDER数据集的发布促进了数字病理学领域的研究和开发。基于SPIDER的数据和模型，研究人员可以探索更复杂的病理学图像分析任务，例如多模态分析和解释性AI。此外，SPIDER的发布也促进了病理学图像分析领域的合作和共享，从而推动了该领域的技术进步和创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集