five

KBSMC_gastric_cancer_grading_dataset|胃癌研究数据集|医学图像分析数据集

收藏
github2023-12-05 更新2024-05-31 收录
胃癌研究
医学图像分析
下载链接:
https://github.com/colin19950703/KBSMC_gastric_cancer_grading_dataset
下载链接
链接失效反馈
资源简介:
该数据集由韩国首尔的Kangbuk三星医院提供,包含了98张来自98名患者的胃癌组织样本的整张切片图像(WSIs),这些图像是在2016至2020年间收集的,并通过Aperio数字切片扫描仪以40倍放大扫描。数据集中的图像被分为训练、验证和测试集,并提供了详细的分类和标注信息。

This dataset is provided by Kangbuk Samsung Hospital in Seoul, South Korea, and includes 98 whole slide images (WSIs) of gastric cancer tissue samples from 98 patients. These images were collected between 2016 and 2020 and scanned at 40x magnification using an Aperio digital slide scanner. The images in the dataset are divided into training, validation, and test sets, with detailed classification and annotation information provided.
创建时间:
2023-11-30
原始信息汇总

数据集概述

数据集名称

  • KBSMC_gastric_cancer_grading_dataset

数据来源

  • 数据由韩国首尔的Kangbuk Samsung Hospital提供。

数据内容

  • 包含98名患者的98张全切片图像(WSIs),采集时间为2016至2020年。
  • 图像通过Aperio数字切片扫描仪(Leica Biosystems)以40倍放大率扫描。
  • 图像分为良性(BN)和三种癌症区域(TW, TM, TP)。

数据结构

  • 训练、验证和测试集包含的图像数量如下:
    • 良性(BN):训练20,883张,验证8,398张,测试7,955张。
    • 管状高分化腺癌(TW):训练14,251张,验证2,239张,测试1,795张。
    • 管状中分化腺癌(TM):训练20,815张,验证2,370张,测试2,458张。
    • 管状低分化腺癌(TP):训练27,689张,验证2,374张,测试3,579张。

数据下载

数据处理

  • 原始图像大小约为270微米x 0.270微米,后调整为512x512像素。
  • 图像名称中的最后一位数字决定其类别,其中1和2代表良性,3代表TW,4代表TM,5代表TP。

数据加载

  • 提供了一个Python脚本dataset.py用于加载和处理数据集。

数据集使用说明

  • 数据集的类别标签通过图像名称的最后一位数字确定,具体分类如下:
    • 1和2:良性(BN)
    • 3:管状高分化腺癌(TW)
    • 4:管状中分化腺癌(TM)
    • 5:管状低分化腺癌(TP)
  • 数据集的加载和处理可通过提供的Python脚本进行。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由韩国首尔的康柏三星医院提供,涵盖了2016年至2020年间收集的98例胃癌患者的全切片图像(WSIs)。这些图像经过40倍放大后,使用Aperio数字切片扫描仪进行扫描。随后,图像被分割成大小为512x512像素的补丁图像,以适应深度学习模型的输入要求。两位资深病理学家Kim Kyungeun和Song Boram对图像进行了标注,区分了良性(BN)和三种不同分化的腺癌(TW、TM、TP)。
特点
KBSMC_gastric_cancer_grading_dataset的显著特点在于其高分辨率的图像和详细的病理标注。数据集包含了98例患者的全切片图像,每张图像都被分割成多个512x512像素的补丁,确保了数据的多样性和覆盖面。此外,数据集的标注由两位资深病理学家完成,确保了标注的准确性和可靠性。
使用方法
使用该数据集时,用户可以通过提供的Python代码加载数据。数据集的结构清晰,包含训练、验证和测试集,用户可以根据需要选择不同的数据子集。加载数据时,用户需指定数据根目录,并可根据需要调整类别数量。数据集的加载代码还提供了图像预处理和目标转换的功能,便于用户进行模型训练和评估。
背景与挑战
背景概述
KBSMC_gastric_cancer_grading_dataset是由韩国首尔的Kangbuk Samsung医院提供的胃癌分级数据集。该数据集的核心研究问题在于通过组织图像和注释来区分不同分级的胃癌,包括良性(BN)、管状良好分化腺癌(TW)、管状中度分化腺癌(TM)和管状低分化腺癌(TP)。数据集的创建时间为2016年至2020年,由两位病理学家Kim, Kyungeun和Song, Boram进行注释。该数据集的引入为胃癌的自动化诊断和分级提供了宝贵的资源,对胃癌研究和临床应用具有重要影响。
当前挑战
KBSMC_gastric_cancer_grading_dataset在构建过程中面临多项挑战。首先,数据集的注释需要高度专业化的病理学知识,确保注释的准确性和一致性。其次,数据集包含98个全切片图像(WSIs),每个图像由多个补丁图像组成,这些图像在处理和存储上需要大量的计算资源。此外,数据集的分类问题复杂,涉及多种癌症分级的区分,这对模型的分类性能提出了高要求。最后,数据集的规模和多样性要求高效的算法和模型来处理和分析,以确保在实际应用中的有效性。
常用场景
经典使用场景
在胃癌病理学研究领域,KBSMC_gastric_cancer_grading_dataset 数据集被广泛用于胃癌分级模型的训练与验证。该数据集包含了从2016年至2020年间收集的98例胃癌患者的全切片图像(WSIs),涵盖了良性(BN)、管状良好分化腺癌(TW)、管状中度分化腺癌(TM)和管状低分化腺癌(TP)四种病理类型。通过这些高分辨率的图像,研究人员能够开发和优化用于胃癌分级的深度学习模型,从而提高病理诊断的准确性和效率。
衍生相关工作
基于KBSMC_gastric_cancer_grading_dataset 数据集,许多相关的经典工作得以开展。例如,有研究团队利用该数据集开发了基于卷积神经网络(CNN)的胃癌分级模型,显著提高了分级的准确性。此外,还有研究探讨了如何通过迁移学习技术,将该数据集中的知识应用于其他类型的癌症分级任务中。这些工作不仅推动了胃癌病理学的发展,也为其他癌症的自动化诊断提供了宝贵的经验和方法。
数据集最近研究
最新研究方向
在胃癌病理学领域,KBSMC_gastric_cancer_grading_dataset的最新研究方向主要集中在利用深度学习技术进行胃癌分级的自动化和精准化。该数据集通过提供高分辨率的胃组织图像及其详细的病理分级标注,为研究者们提供了一个宝贵的资源,以开发和验证基于图像分析的胃癌分级模型。当前的研究热点包括利用卷积神经网络(CNN)和迁移学习方法,以提高模型的分类准确性和泛化能力。此外,结合多模态数据(如基因表达和临床数据)进行综合分析,也是该领域的一个新兴趋势,旨在进一步提升胃癌分级的临床应用价值。这些研究不仅有助于提高胃癌诊断的效率和准确性,还为个性化医疗和治疗方案的制定提供了科学依据。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Pet Disease images

Comprehensive Image Dataset for Detecting Pet Diseases Across Multiple Species

kaggle 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录