five

KBSMC_gastric_cancer_grading_dataset|胃癌研究数据集|医学图像分析数据集

收藏
github2023-12-05 更新2024-05-31 收录
胃癌研究
医学图像分析
下载链接:
https://github.com/colin19950703/KBSMC_gastric_cancer_grading_dataset
下载链接
链接失效反馈
资源简介:
该数据集由韩国首尔的Kangbuk三星医院提供,包含了98张来自98名患者的胃癌组织样本的整张切片图像(WSIs),这些图像是在2016至2020年间收集的,并通过Aperio数字切片扫描仪以40倍放大扫描。数据集中的图像被分为训练、验证和测试集,并提供了详细的分类和标注信息。

This dataset is provided by Kangbuk Samsung Hospital in Seoul, South Korea, and includes 98 whole slide images (WSIs) of gastric cancer tissue samples from 98 patients. These images were collected between 2016 and 2020 and scanned at 40x magnification using an Aperio digital slide scanner. The images in the dataset are divided into training, validation, and test sets, with detailed classification and annotation information provided.
创建时间:
2023-11-30
原始信息汇总

数据集概述

数据集名称

  • KBSMC_gastric_cancer_grading_dataset

数据来源

  • 数据由韩国首尔的Kangbuk Samsung Hospital提供。

数据内容

  • 包含98名患者的98张全切片图像(WSIs),采集时间为2016至2020年。
  • 图像通过Aperio数字切片扫描仪(Leica Biosystems)以40倍放大率扫描。
  • 图像分为良性(BN)和三种癌症区域(TW, TM, TP)。

数据结构

  • 训练、验证和测试集包含的图像数量如下:
    • 良性(BN):训练20,883张,验证8,398张,测试7,955张。
    • 管状高分化腺癌(TW):训练14,251张,验证2,239张,测试1,795张。
    • 管状中分化腺癌(TM):训练20,815张,验证2,370张,测试2,458张。
    • 管状低分化腺癌(TP):训练27,689张,验证2,374张,测试3,579张。

数据下载

数据处理

  • 原始图像大小约为270微米x 0.270微米,后调整为512x512像素。
  • 图像名称中的最后一位数字决定其类别,其中1和2代表良性,3代表TW,4代表TM,5代表TP。

数据加载

  • 提供了一个Python脚本dataset.py用于加载和处理数据集。

数据集使用说明

  • 数据集的类别标签通过图像名称的最后一位数字确定,具体分类如下:
    • 1和2:良性(BN)
    • 3:管状高分化腺癌(TW)
    • 4:管状中分化腺癌(TM)
    • 5:管状低分化腺癌(TP)
  • 数据集的加载和处理可通过提供的Python脚本进行。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由韩国首尔的康柏三星医院提供,涵盖了2016年至2020年间收集的98例胃癌患者的全切片图像(WSIs)。这些图像经过40倍放大后,使用Aperio数字切片扫描仪进行扫描。随后,图像被分割成大小为512x512像素的补丁图像,以适应深度学习模型的输入要求。两位资深病理学家Kim Kyungeun和Song Boram对图像进行了标注,区分了良性(BN)和三种不同分化的腺癌(TW、TM、TP)。
特点
KBSMC_gastric_cancer_grading_dataset的显著特点在于其高分辨率的图像和详细的病理标注。数据集包含了98例患者的全切片图像,每张图像都被分割成多个512x512像素的补丁,确保了数据的多样性和覆盖面。此外,数据集的标注由两位资深病理学家完成,确保了标注的准确性和可靠性。
使用方法
使用该数据集时,用户可以通过提供的Python代码加载数据。数据集的结构清晰,包含训练、验证和测试集,用户可以根据需要选择不同的数据子集。加载数据时,用户需指定数据根目录,并可根据需要调整类别数量。数据集的加载代码还提供了图像预处理和目标转换的功能,便于用户进行模型训练和评估。
背景与挑战
背景概述
KBSMC_gastric_cancer_grading_dataset是由韩国首尔的Kangbuk Samsung医院提供的胃癌分级数据集。该数据集的核心研究问题在于通过组织图像和注释来区分不同分级的胃癌,包括良性(BN)、管状良好分化腺癌(TW)、管状中度分化腺癌(TM)和管状低分化腺癌(TP)。数据集的创建时间为2016年至2020年,由两位病理学家Kim, Kyungeun和Song, Boram进行注释。该数据集的引入为胃癌的自动化诊断和分级提供了宝贵的资源,对胃癌研究和临床应用具有重要影响。
当前挑战
KBSMC_gastric_cancer_grading_dataset在构建过程中面临多项挑战。首先,数据集的注释需要高度专业化的病理学知识,确保注释的准确性和一致性。其次,数据集包含98个全切片图像(WSIs),每个图像由多个补丁图像组成,这些图像在处理和存储上需要大量的计算资源。此外,数据集的分类问题复杂,涉及多种癌症分级的区分,这对模型的分类性能提出了高要求。最后,数据集的规模和多样性要求高效的算法和模型来处理和分析,以确保在实际应用中的有效性。
常用场景
经典使用场景
在胃癌病理学研究领域,KBSMC_gastric_cancer_grading_dataset 数据集被广泛用于胃癌分级模型的训练与验证。该数据集包含了从2016年至2020年间收集的98例胃癌患者的全切片图像(WSIs),涵盖了良性(BN)、管状良好分化腺癌(TW)、管状中度分化腺癌(TM)和管状低分化腺癌(TP)四种病理类型。通过这些高分辨率的图像,研究人员能够开发和优化用于胃癌分级的深度学习模型,从而提高病理诊断的准确性和效率。
衍生相关工作
基于KBSMC_gastric_cancer_grading_dataset 数据集,许多相关的经典工作得以开展。例如,有研究团队利用该数据集开发了基于卷积神经网络(CNN)的胃癌分级模型,显著提高了分级的准确性。此外,还有研究探讨了如何通过迁移学习技术,将该数据集中的知识应用于其他类型的癌症分级任务中。这些工作不仅推动了胃癌病理学的发展,也为其他癌症的自动化诊断提供了宝贵的经验和方法。
数据集最近研究
最新研究方向
在胃癌病理学领域,KBSMC_gastric_cancer_grading_dataset的最新研究方向主要集中在利用深度学习技术进行胃癌分级的自动化和精准化。该数据集通过提供高分辨率的胃组织图像及其详细的病理分级标注,为研究者们提供了一个宝贵的资源,以开发和验证基于图像分析的胃癌分级模型。当前的研究热点包括利用卷积神经网络(CNN)和迁移学习方法,以提高模型的分类准确性和泛化能力。此外,结合多模态数据(如基因表达和临床数据)进行综合分析,也是该领域的一个新兴趋势,旨在进一步提升胃癌分级的临床应用价值。这些研究不仅有助于提高胃癌诊断的效率和准确性,还为个性化医疗和治疗方案的制定提供了科学依据。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

EcoInvent

EcoInvent是一个生命周期评估(LCA)数据库,包含了大量产品的环境影响数据。它提供了详细的产品生命周期数据,包括原材料提取、生产、使用和废弃处理等各个阶段的环境影响信息。

www.ecoinvent.org 收录

GVJahnavi/Crops_set

该数据集包含图像和标签两个主要特征。图像特征的数据类型为图像,标签特征的数据类型为类标签,具体包括20种不同的植物病害和健康状态,如玉米的灰斑病、普通锈病、北方叶枯病,以及番茄的细菌性斑点病、早疫病、晚疫病等。数据集分为训练集和测试集,训练集包含25384个样本,测试集包含6346个样本。数据集的下载大小为514893426字节,总大小为474216412.07000005字节。

hugging_face 收录

中国1km分辨率逐月NDVI数据集(2001-2023年)

中国1km分辨率逐月NDVI数据集(2001-2023年)根据MODIS MOD13A2数据进行月度最大值合成、镶嵌和裁剪后制作而成,包含多个TIF文件,每个TIF文件对应该月最大值NDVI数据,文件以时间命名。数据值域改为-0.2~1,不再需要除以一万,另外范围扩大到中国及周边地区,可以自行裁剪。数据分为两个文件夹,MVC文件夹中为MOD13A2 NDVI逐月最大值合成结果,mod1k_SGfilter为MVC中数据S-G滤波后的结果。

国家地球系统科学数据中心 收录