SPIDER

github2025-03-05 更新2025-03-06 收录

下载链接：

https://github.com/HistAI/SPIDER

下载链接

链接失效反馈

官方服务：

资源简介：

SPIDER是一个大型的、高质量的、多样化的病理图像 patch-level 数据集，旨在推动基于AI的计算病理学发展。它提供了多个器官的覆盖范围，专家注释的标签和强大的基线模型，以支持数字病理学的研究和开发。

SPIDER is a large-scale, high-quality, and diverse patch-level histopathological image dataset aimed at advancing AI-driven computational pathology. It covers multiple organ systems, provides expert-annotated labels and robust baseline models, and supports research and development in the field of digital pathology.

创建时间：

2025-03-03

原始信息汇总

SPIDER数据集概述

数据集简介

名称：SPIDER (Supervised Pathology Image-Description Repository)
目的：推进AI驱动的计算病理学
特点：包含多器官覆盖、专家标注标签、强大的基线模型
用途：支持数字病理学的研究与开发

数据集详情

组成：三个特定器官的数据集
- SPIDER-Skin
- SPIDER-Colorectal
- SPIDER-Thorax
数据内容：
- 224×224像素中心区块，带有专家验证的类标签
- 24个周边区块，形成1120×1120像素复合区域
- 20X放大倍数，适合高细节分析
- 训练-测试分割，确保健壮的基准测试

预训练模型

基础模型：Hibou-L，带有注意力分类头
支持功能：
- 区块级别的多类分类
- 使用周边区块提高准确性
- 易于病理AI应用部署

性能指标

器官	准确率	精确度	F1分数
皮肤	0.940	0.935	0.937
结直肠	0.914	0.917	0.915
胸腔	0.962	0.958	0.960

版权信息

许可证：CC BY-NC 4.0
用途：仅限研究使用

联系方式

作者：Dmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova
邮箱：dmitry@hist.ai, alex@hist.ai, kate@hist.ai

引用

bibtex @misc{nechaev2025spidercomprehensivemultiorgansupervised, title={SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models}, author={Dmitry Nechaev and Alexey Pchelnikov and Ekaterina Ivanova}, year={2025}, eprint={2503.02876}, archivePrefix={arXiv}, primaryClass={eess.IV}, url={https://arxiv.org/abs/2503.02876}, }

搜集汇总

数据集介绍

构建方式

SPIDER数据集的构建，旨在推进基于人工智能的计算病理学领域。该数据集通过集成多个器官的覆盖范围，专家标注的标签以及强大的基线模型，为研究者提供了全面的支持。具体而言，该数据集包含了皮肤、结直肠和胸腺三个器官的专门数据集，每个数据集都包括经过专家验证的224×224中心斑块类标签，以及形成1120×1120复合区域的24个周围环境斑块。所有图像均为20倍放大，确保了高细节分析的可能。

使用方法

使用SPIDER数据集和预训练模型非常直观。研究者可以通过Hugging Face Hub提供的`huggingface_hub`库或Git克隆来下载数据集。加载预训练模型进行推理的过程同样简便，只需利用Transformers库中的`AutoModel`和`AutoProcessor`即可。这使得SPIDER数据集不仅易于集成到现有的研究项目中，也便于部署到病理学AI应用中。

背景与挑战

背景概述

SPIDER数据集，全称为Supervised Pathology Image-Description Repository，是一项旨在推进人工智能驱动的计算病理学的大型、高质量、多样化的病理图像数据集。该数据集由Dmitry Nechaev、Alexey Pchelnikov和Ekaterina Ivanova等研究人员于2025年创建，涵盖了多个器官的病理图像，并提供了专家标注的标签以及强大的基线模型，以支持数字病理学领域的研究与发展。SPIDER数据集的发布，为病理图像分析领域提供了宝贵的数据资源，对相关研究产生了显著影响。

当前挑战

SPIDER数据集在构建过程中面临了多方面的挑战。首先，多器官的病理图像收集与标注工作繁琐且成本高昂。其次，数据集的构建需要确保图像质量与标注的一致性，这对于专家的依赖性较强。在研究领域问题上，SPIDER数据集需解决如何利用深度学习模型进行精确的病理图像分类与识别，特别是在利用周围上下文信息提升分类准确性方面。此外，模型的泛化能力、跨数据集的性能评估以及实际临床应用中的有效性，也是当前研究的重要挑战。

常用场景

经典使用场景

在数字病理学领域，SPIDER数据集以其多器官覆盖、专家标注标签和强大的基线模型，成为推动AI驱动的计算病理学研究的核心资源。该数据集的经典使用场景在于，研究者可利用其进行病理图像的patch-level分类任务，以实现更精准的病变识别和诊断。

解决学术问题

SPIDER数据集解决了数字病理学研究中数据标注质量不一、多器官数据不足等关键问题，为学术界提供了一个高质量、多样化且经过专家审核的数据集。它不仅有助于提升病理图像分析的准确度和效率，也为算法的泛化能力提供了坚实基础，对促进计算病理学的发展具有重要意义。

实际应用

在实际应用中，SPIDER数据集的应用场景广泛，包括但不限于辅助病理医生进行疾病诊断、预测疾病发展、指导个性化治疗方案等。其强大的基线模型和易于部署的特性，使得研究成果能够快速转化为临床实践，提高医疗服务的质量和效率。

数据集最近研究