HistoArtifacts

github2024-03-15 更新2024-05-31 收录

下载链接：

https://github.com/NeelKanwal/Vision-Transformers-for-Small-Histological-Datasets-Learned-Through-Knowledge-Distillation

下载链接

链接失效反馈

官方服务：

资源简介：

HistoArtifacts数据集用于自动化诊断任务，特别是在计算病理学系统中用于检测和排除数字化组织玻片上的气泡等人工制品。

The HistoArtifacts dataset is utilized for automated diagnostic tasks, specifically within computational pathology systems, to detect and exclude artifacts such as air bubbles on digitized tissue slides.

创建时间：

2023-10-24

原始信息汇总

数据集概述

数据集名称

HistoArtifacts

数据集来源

链接：https://zenodo.org/records/10809442

数据集结构

数据集应按以下结构组织：
- path_toairbubble_dataset - training -- artifact_free -- bubble - validation -- artifact_free -- bubble - test -- artifact_free -- bubble

数据集用途

用于训练和验证Vision Transformers (ViTs)模型，特别是在检测和排除数字化的组织学玻璃片（Whole Slide Images, WSIs）中的气泡等人工制品。

数据集性能

使用知识蒸馏方法训练的ViT模型在气泡检测任务中表现出色，F1分数达到0.961，MCC达到0.911，相较于独立训练提升了7%的MCC。

引用信息

若使用此数据集，请引用以下文献：

@inproceedings{kanwal2023vision, title={Vision Transformers for Small Histological Datasets Learned Through Knowledge Distillation}, author={Kanwal, Neel and Eftest{o}l, Trygve and Khoraminia, Farbod and Zuiverloon, Tahlita CM and Engan, Kjersti}, booktitle={Pacific-Asia Conference on Knowledge Discovery and Data Mining}, pages={167--179}, year={2023}, organization={Springer} }

搜集汇总

数据集介绍

构建方式

HistoArtifacts数据集的构建基于数字化的组织学切片图像（WSIs），旨在识别和排除这些图像中的伪影。数据集通过将图像分为包含伪影和无伪影的类别进行组织，具体结构包括训练集、验证集和测试集，每个子集下进一步细分为‘artifact_free’和‘bubble’等类别。这种结构化的组织方式有助于模型在训练过程中更好地学习伪影特征，并为后续的模型评估提供了标准化的数据基础。

特点

HistoArtifacts数据集的特点在于其专注于组织学图像中的伪影检测，特别是气泡伪影。数据集通过高分辨率的D40x图像捕捉了细微的伪影特征，为深度学习模型提供了高质量的训练数据。此外，数据集的分类结构清晰，便于模型在训练和验证过程中进行精确的类别区分。数据集的构建还考虑了医学图像处理的实际需求，为计算病理学系统的预处理流程提供了重要的数据支持。

使用方法

使用HistoArtifacts数据集时，用户需按照指定的文件夹结构组织数据，确保训练、验证和测试集的图像分别存放在相应的目录下。通过调用train_dcnns.py、train_transformers.py和distillation.py等脚本，用户可以训练深度学习模型，并根据需要调整超参数。数据集的标准化结构使得模型训练和评估过程更加高效，同时为知识蒸馏等高级训练方法提供了便利。使用该数据集时，建议引用相关论文以支持学术研究的透明性和可重复性。

背景与挑战

背景概述

HistoArtifacts数据集由Neel Kanwal等研究人员于2023年发布，旨在解决计算病理学（CPATH）系统中全玻片图像（WSIs）上的伪影检测问题。该数据集的核心研究问题是通过深度学习模型，特别是视觉变换器（ViTs），来识别和排除WSIs中的伪影，从而提高诊断算法的准确性。研究团队提出了一种基于知识蒸馏的学生-教师框架，显著提升了ViT在气泡检测任务中的分类性能。该数据集为计算病理学领域提供了一种高效的预处理方法，推动了定制化变换器在医学图像处理中的应用。

当前挑战

HistoArtifacts数据集在构建和应用过程中面临多重挑战。首先，医学图像数据集的获取成本高昂且不便，限制了大规模数据集的可用性，这要求研究团队开发一种能够在有限数据上实现高效伪影检测的方法。其次，WSIs中的伪影种类繁多且形态复杂，如何设计一种鲁棒的模型来准确识别这些伪影是一个技术难题。此外，尽管知识蒸馏方法在提升模型性能方面表现出色，但其在医学图像处理中的泛化能力仍需进一步验证。这些挑战共同推动了该领域在数据高效性和模型鲁棒性方面的深入研究。

常用场景

经典使用场景

HistoArtifacts数据集在计算病理学领域中被广泛应用于全玻片图像（WSIs）中的伪影检测任务。通过使用Vision Transformers（ViTs）模型，该数据集能够有效识别并排除图像中的气泡等伪影，从而提升病理诊断系统的整体性能。其经典应用场景包括在小型组织学数据集上进行知识蒸馏训练，以增强模型的泛化能力和分类精度。

解决学术问题

HistoArtifacts数据集解决了在计算病理学中因伪影干扰导致的诊断性能下降问题。通过引入学生-教师框架的知识蒸馏方法，该数据集显著提升了ViT模型在气泡检测任务中的表现，F1分数和MCC分别达到0.961和0.911。这一方法为小型医学数据集上的深度学习模型训练提供了新的视角，推动了定制化Transformer在病理学预处理流程中的应用。

衍生相关工作

基于HistoArtifacts数据集，衍生了一系列相关研究工作，如《Equipping Computational Pathology Systems with Artifact Processing Pipeline》和《Quantifying the effect of color processing on blood and damaged tissue detection》。这些研究进一步探索了伪影处理在计算病理学中的重要性，并提出了新的方法和技术，推动了该领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集