five

zeyugao/TCGA-Spatial

收藏
Hugging Face2024-05-15 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/zeyugao/TCGA-Spatial
下载链接
链接失效反馈
官方服务:
资源简介:
TCGA-RCC和TCGA-LU数据集的像素注释以PNG文件形式保存,其中白色/红色/绿色标记的区域为癌症区域,蓝色标记的区域为废弃区域或背景。PNG文件名对应于每个WSI的case_id,并且可以通过GitHub仓库中的dataset_csv文件与原始TCGA名称匹配。注释掩码的大小对应于相应WSI的第3级。TCGA-STAD数据集的补丁注释以CSV文件形式保存,每行表示一个带有相应坐标、大小和注释标签的补丁。坐标和大小是在相应SVS文件的最大放大倍数下获得的。CSV文件名对应于每个WSI的case_id,并且可以通过GitHub仓库中的dataset_csv文件与原始TCGA名称匹配。通过统计每个WSI中是否出现某些亚型的补丁,可以获得WSI的细粒度亚型标签。

TCGA-RCC和TCGA-LU数据集的像素注释以PNG文件形式保存,其中白色/红色/绿色标记的区域为癌症区域,蓝色标记的区域为废弃区域或背景。PNG文件名对应于每个WSI的case_id,并且可以通过GitHub仓库中的dataset_csv文件与原始TCGA名称匹配。注释掩码的大小对应于相应WSI的第3级。TCGA-STAD数据集的补丁注释以CSV文件形式保存,每行表示一个带有相应坐标、大小和注释标签的补丁。坐标和大小是在相应SVS文件的最大放大倍数下获得的。CSV文件名对应于每个WSI的case_id,并且可以通过GitHub仓库中的dataset_csv文件与原始TCGA名称匹配。通过统计每个WSI中是否出现某些亚型的补丁,可以获得WSI的细粒度亚型标签。
提供机构:
zeyugao
原始信息汇总

数据集概述

像素标注数据集

  • 名称: Pixel Annotations of TCGA-RCC and TCGA-LU
  • 格式: PNG文件
  • 内容: 癌症区域标记为白色/红色/绿色,废弃区域(背景)标记为蓝色。
  • 文件命名: 基于每个WSI的case_id。
  • 尺寸: 每个标注掩码的尺寸等于对应WSI的第3级。
  • 匹配: 原始TCGA名称需与GitHub仓库中的dataset_csv文件匹配。

补丁标注数据集

  • 名称: Patch Annotations of TCGA-STAD
  • 格式: CSV文件
  • 内容: 每行表示一个带有相应坐标、尺寸和标注标签的补丁。
  • 坐标和尺寸: 在对应SVS文件的最大放大倍数下获取。
  • 文件命名: 基于每个WSI的case_id。
  • 匹配: 原始TCGA名称需与GitHub仓库中的dataset_csv文件匹配。
  • 细粒度亚型标签: 通过统计每张WSI中特定亚型补丁的出现来获取。
搜集汇总
数据集介绍
main_image_url
构建方式
在数字病理学领域,精准的标注数据是推动组织形态分析算法发展的基石。zeyu/TCGA-Spatial数据集依托权威的TCGA(癌症基因组图谱)资源,针对肾细胞癌(RCC)、肺癌(LUAD/LUSC)及胃癌(STAD)的病理全切片图像(WSI)构建了多模态空间注释。其构建过程严谨,对于TCGA-RCC和TCGA-LUAD/LUSC子集,专家在WSI的第三级分辨率下进行像素级标注,生成PNG格式掩码,其中白/红/绿色区域标识癌变组织,蓝色区域标记为背景或弃用区域。对于TCGA-STAD子集,则采用基于图像块的注释策略,以CSV文件记录每个图像块在最高放大倍率下的坐标、尺寸及细分子型标签,从而实现了从宏观组织区域到微观图像块的多尺度信息覆盖。
特点
该数据集的核心特征在于其多层次、结构化的空间注释体系。它不仅提供了像素级的语义分割掩码,用于精确勾勒癌变区域的形态边界,还创新性地引入了基于坐标的图像块级注释,为组织微环境的定量分析提供了可能。这种双轨并行的标注方式,使得数据集既能支持传统的组织区域分割任务,也能适应新兴的基于图像块的分类或弱监督学习范式。尤为重要的是,所有注释均与原始TCGA病例标识严格对应,并通过配套的元数据文件确保了数据的一致性与可追溯性,为算法验证提供了高可靠性的基准。
使用方法
为有效利用该数据集进行研究,用户需遵循系统化的数据关联与处理流程。首先,需从提供的GitHub代码库中获取数据集CSV文件,以建立PNG或CSV注释文件与原始TCGA WSI病例标识之间的准确映射。对于像素级注释,可直接将PNG掩码与对应WSI的第三级图像进行配准,用于训练或评估语义分割模型。对于图像块级注释,则需依据CSV文件中的坐标与尺寸信息,从最高分辨率的WSI中提取对应区域的图像块,并结合其子型标签构建分类或检测任务的数据集。通过统计WSI内特定子型图像块的出现情况,还可进一步推导出整个切片的细粒度亚型标签,为弱监督学习开辟路径。
背景与挑战
背景概述
在数字病理学领域,全切片图像(WSI)的精准注释对于癌症诊断与亚型分析至关重要。zeyuGao/TCGA-Spatial数据集由研究人员Zeyu Gao及其团队于近年构建,依托癌症基因组图谱(TCGA)计划,聚焦肾细胞癌(RCC)、肺癌(LUAD/LUSC)及胃癌(STAD)的空间注释数据。该数据集的核心研究问题在于解决WSI中癌症区域的多尺度标注难题,通过像素级与区块级注释相结合,为计算病理学模型提供高质量的训练基准,显著推动了肿瘤微环境分析与预后预测研究的发展。
当前挑战
该数据集旨在应对癌症亚型空间异质性识别的挑战,其标注需在组织形态复杂、边界模糊的WSI中精确区分恶性与正常区域,这对算法泛化能力提出极高要求。构建过程中,研究人员面临标注一致性维护的困难,由于病理学家主观差异及WSI尺寸庞大,像素级注释需在多层次分辨率下对齐,而区块级注释则涉及坐标映射与标签聚合的精度控制,这些因素共同增加了数据标准化与验证的复杂度。
常用场景
经典使用场景
在计算病理学领域,zeyuGao/TCGA-Spatial数据集为全切片图像(WSI)的像素级和补丁级注释提供了标准化资源。该数据集整合了TCGA-RCC、TCGA-LU和TCGA-STAD等癌症类型的空间标注信息,经典使用场景聚焦于训练和验证深度学习模型,特别是用于癌症区域的自动分割与分类。通过提供白色、红色、绿色标记的癌变区域以及蓝色背景区域,研究者能够构建精准的语义分割模型,以识别组织切片中的肿瘤边界和亚型分布,从而推动数字病理分析的自动化进程。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作,包括SMMILe框架的开发,该框架利用多模态学习整合空间与形态信息。其他研究如基于深度学习的WSI分割算法、癌症亚型预测模型,以及迁移学习在跨癌症类型分析中的应用,都以此数据集为基准进行验证。这些工作进一步拓展了计算病理学的边界,促进了开源工具和标准化协议的建立,为后续大规模癌症图像分析研究奠定了坚实基础。
数据集最近研究
最新研究方向
在数字病理学领域,空间转录组学与组织形态学的融合正成为前沿热点。zeyuGao/TCGA-Spatial数据集通过像素级和区块级注释,为肾细胞癌、肺癌及胃癌的肿瘤微环境分析提供了精细的空间标注资源。当前研究聚焦于利用深度学习模型,如卷积神经网络与图神经网络,整合多尺度组织图像与分子特征,以揭示肿瘤异质性、免疫细胞空间分布及预后生物标志物。该数据集推动了精准肿瘤学的发展,支持自动化病理诊断和个性化治疗策略的制定,在癌症研究向空间多组学转型的背景下,其高分辨率注释为算法验证与临床转化奠定了关键基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作