KBSMC_gastric_cancer_grading_dataset

github2023-12-05 更新2024-05-31 收录

下载链接：

https://github.com/colin19950703/KBSMC_gastric_cancer_grading_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由韩国首尔的Kangbuk三星医院提供，包含了98张来自98名患者的胃癌组织样本的整张切片图像（WSIs），这些图像是在2016至2020年间收集的，并通过Aperio数字切片扫描仪以40倍放大扫描。数据集中的图像被分为训练、验证和测试集，并提供了详细的分类和标注信息。

This dataset is provided by Kangbuk Samsung Hospital in Seoul, South Korea, and includes 98 whole slide images (WSIs) of gastric cancer tissue samples from 98 patients. These images were collected between 2016 and 2020 and scanned at 40x magnification using an Aperio digital slide scanner. The images in the dataset are divided into training, validation, and test sets, with detailed classification and annotation information provided.

创建时间：

2023-11-30

原始信息汇总

数据集概述

数据集名称

KBSMC_gastric_cancer_grading_dataset

数据来源

数据由韩国首尔的Kangbuk Samsung Hospital提供。

数据内容

包含98名患者的98张全切片图像（WSIs），采集时间为2016至2020年。
图像通过Aperio数字切片扫描仪（Leica Biosystems）以40倍放大率扫描。
图像分为良性（BN）和三种癌症区域（TW, TM, TP）。

数据结构

训练、验证和测试集包含的图像数量如下：
- 良性（BN）：训练20,883张，验证8,398张，测试7,955张。
- 管状高分化腺癌（TW）：训练14,251张，验证2,239张，测试1,795张。
- 管状中分化腺癌（TM）：训练20,815张，验证2,370张，测试2,458张。
- 管状低分化腺癌（TP）：训练27,689张，验证2,374张，测试3,579张。

数据下载

数据集可通过Google Drive下载，链接为：Google Drive Link。

数据处理

原始图像大小约为270微米x 0.270微米，后调整为512x512像素。
图像名称中的最后一位数字决定其类别，其中1和2代表良性，3代表TW，4代表TM，5代表TP。

数据加载

提供了一个Python脚本dataset.py用于加载和处理数据集。

数据集使用说明

数据集的类别标签通过图像名称的最后一位数字确定，具体分类如下：
- 1和2：良性（BN）
- 3：管状高分化腺癌（TW）
- 4：管状中分化腺癌（TM）
- 5：管状低分化腺癌（TP）
数据集的加载和处理可通过提供的Python脚本进行。

搜集汇总

数据集介绍

构建方式

该数据集由韩国首尔的康柏三星医院提供，涵盖了2016年至2020年间收集的98例胃癌患者的全切片图像（WSIs）。这些图像经过40倍放大后，使用Aperio数字切片扫描仪进行扫描。随后，图像被分割成大小为512x512像素的补丁图像，以适应深度学习模型的输入要求。两位资深病理学家Kim Kyungeun和Song Boram对图像进行了标注，区分了良性（BN）和三种不同分化的腺癌（TW、TM、TP）。

特点

KBSMC_gastric_cancer_grading_dataset的显著特点在于其高分辨率的图像和详细的病理标注。数据集包含了98例患者的全切片图像，每张图像都被分割成多个512x512像素的补丁，确保了数据的多样性和覆盖面。此外，数据集的标注由两位资深病理学家完成，确保了标注的准确性和可靠性。

使用方法

使用该数据集时，用户可以通过提供的Python代码加载数据。数据集的结构清晰，包含训练、验证和测试集，用户可以根据需要选择不同的数据子集。加载数据时，用户需指定数据根目录，并可根据需要调整类别数量。数据集的加载代码还提供了图像预处理和目标转换的功能，便于用户进行模型训练和评估。

背景与挑战

背景概述

KBSMC_gastric_cancer_grading_dataset是由韩国首尔的Kangbuk Samsung医院提供的胃癌分级数据集。该数据集的核心研究问题在于通过组织图像和注释来区分不同分级的胃癌，包括良性（BN）、管状良好分化腺癌（TW）、管状中度分化腺癌（TM）和管状低分化腺癌（TP）。数据集的创建时间为2016年至2020年，由两位病理学家Kim, Kyungeun和Song, Boram进行注释。该数据集的引入为胃癌的自动化诊断和分级提供了宝贵的资源，对胃癌研究和临床应用具有重要影响。

当前挑战

KBSMC_gastric_cancer_grading_dataset在构建过程中面临多项挑战。首先，数据集的注释需要高度专业化的病理学知识，确保注释的准确性和一致性。其次，数据集包含98个全切片图像（WSIs），每个图像由多个补丁图像组成，这些图像在处理和存储上需要大量的计算资源。此外，数据集的分类问题复杂，涉及多种癌症分级的区分，这对模型的分类性能提出了高要求。最后，数据集的规模和多样性要求高效的算法和模型来处理和分析，以确保在实际应用中的有效性。

常用场景

经典使用场景

在胃癌病理学研究领域，KBSMC_gastric_cancer_grading_dataset 数据集被广泛用于胃癌分级模型的训练与验证。该数据集包含了从2016年至2020年间收集的98例胃癌患者的全切片图像（WSIs），涵盖了良性（BN）、管状良好分化腺癌（TW）、管状中度分化腺癌（TM）和管状低分化腺癌（TP）四种病理类型。通过这些高分辨率的图像，研究人员能够开发和优化用于胃癌分级的深度学习模型，从而提高病理诊断的准确性和效率。

衍生相关工作

基于KBSMC_gastric_cancer_grading_dataset 数据集，许多相关的经典工作得以开展。例如，有研究团队利用该数据集开发了基于卷积神经网络（CNN）的胃癌分级模型，显著提高了分级的准确性。此外，还有研究探讨了如何通过迁移学习技术，将该数据集中的知识应用于其他类型的癌症分级任务中。这些工作不仅推动了胃癌病理学的发展，也为其他癌症的自动化诊断提供了宝贵的经验和方法。

数据集最近研究