five

graph-tcga-brca

收藏
Hugging Face2026-02-24 更新2026-02-25 收录
下载链接:
https://huggingface.co/datasets/ogutsevda/graph-tcga-brca
下载链接
链接失效反馈
官方服务:
资源简介:
Graph-TCGA-BRCA 是一个基于 TCGA-BRCA 组织病理学数据集的图级分类数据集,专为乳腺癌细粒度亚型分类设计。该数据集将 224x224 的病理图像块转换为细胞图(cell-graph),其中节点代表检测到的细胞核,边编码空间邻近关系。节点特征包含细胞形态、纹理和颜色强度信息,边特征则为微米级的欧几里得距离。数据集包含 11,149,500 个图和 2 个临床相关类别(浸润性导管癌和浸润性小叶癌),每个图平均具有 96 维节点特征和 1 维边特征。该数据集适用于图神经网络在乳腺癌病理分析中的自监督学习和分类任务研究,采用 PyTorch Geometric 数据格式存储,并遵循 CC BY-NC-SA 4.0 许可协议。
创建时间:
2026-02-12
搜集汇总
数据集介绍
main_image_url
构建方式
在计算病理学领域,将组织学图像转化为结构化图表示已成为一种前沿方法。Graph-TCGA-BRCA数据集的构建始于TCGA-BRCA项目提供的乳腺癌全切片图像,通过将每张224x224像素的图像块转换为细胞图来完成。具体而言,首先利用细胞核检测算法识别图像中的细胞核,并将其抽象为图节点,节点特征则捕获了细胞的形态、纹理和颜色强度等多达96维的形态学信息。随后,基于细胞核之间的空间邻近关系建立边连接,并以微米为单位的欧几里得距离作为边特征,从而构建出能够精细表征组织微观结构的图数据。这一转换过程使得原始的像素数据被提升为富含拓扑关系的图结构,为基于图神经网络的分析奠定了坚实基础。
特点
该数据集的核心特点在于其规模宏大且标注精准,共包含超过一千一百万张图,涵盖浸润性导管癌和浸润性小叶癌两种临床相关的乳腺癌亚型。每张细胞图均具有动态的节点与边数量,真实反映了组织切片的细胞密度与空间分布异质性。节点特征维度为96,全面编码了细胞的形态学属性,而边特征则单一地表示为空间距离。值得注意的是,边权重的原始设计可能不符合图神经网络的常规假设,因此使用者常需对其进行变换,如采用距离倒数或负距离,以更好地建模细胞间的邻近性。这种设计既保留了生物组织的空间信息,又为模型学习提供了灵活的处理空间。
使用方法
为有效利用该数据集进行模型训练与评估,建议遵循其预定义的数据划分。数据集以PyTorch Geometric的Data对象格式存储,每个对象包含节点特征矩阵、边索引、边属性以及样本标识、类别标签和图像块坐标等元数据。使用前需将压缩的.tar文件解压至指定目录,并通过torch.load函数加载单个图数据进行处理。在模型输入阶段,可参考附带的归一化文件对节点和边特征进行标准化,并针对边权重的特性进行适当转换,以优化图神经网络的收敛与性能。该数据集适用于图级分类任务,为乳腺癌亚型的自动鉴别研究提供了标准化的基准。
背景与挑战
背景概述
Graph-TCGA-BRCA数据集于2026年由Sevda Öğüt等研究人员在《GrapHist: Graph Self-Supervised Learning for Histopathology》论文中首次提出,旨在将TCGA-BRCA组织病理学图像转化为细胞图结构,以支持乳腺癌亚型的细粒度分类研究。该数据集源自癌症基因组图谱(TCGA)的乳腺癌项目,通过将224x224像素的图像块转换为节点代表细胞核、边编码空间邻近关系的图数据,为计算病理学领域提供了基于图神经网络的创新分析框架。其核心研究问题聚焦于利用细胞形态与空间分布特征,区分浸润性导管癌和浸润性小叶癌这两种临床相关亚型,推动了组织病理学图像分析从传统视觉方法向结构化表示学习的范式转变。
当前挑战
该数据集旨在解决乳腺癌组织病理学图像分类中的关键挑战,即如何有效捕捉细胞间复杂的空间拓扑关系以实现精准亚型鉴别。构建过程中的主要挑战包括:从高分辨率全切片图像中提取细胞核并生成大规模图数据时,需平衡计算效率与生物学保真度;边缘特征默认采用欧氏距离,其正值递增特性与图神经网络中邻近性假设存在冲突,要求研究者对边权重进行如倒数或负距离等变换以优化模型学习。此外,数据集中类别分布不均衡(IDC与LC样本数量差异显著)可能影响分类器的泛化性能,需通过算法设计或采样策略加以应对。
常用场景
经典使用场景
在数字病理学领域,Graph-TCGA-BRCA数据集为乳腺癌亚型分类提供了精细的图结构表示。该数据集将组织病理学图像转换为细胞图,其中节点代表细胞核,边编码空间邻近关系,从而支持图神经网络模型对浸润性导管癌和浸润性小叶癌进行自动化鉴别诊断。这种图表示方法能够捕捉细胞间的拓扑交互模式,为基于深度学习的组织病理学分析奠定了数据基础。
解决学术问题
该数据集有效解决了组织病理学图像分析中细胞级别特征提取与整合的学术挑战。通过将图像转换为细胞图,研究者能够超越传统图像分类方法,直接建模细胞形态、纹理及空间分布等微观特征。这为探索癌症亚型与细胞群落结构之间的关联提供了新途径,推动了计算病理学中图表示学习与自监督学习方法的创新,显著提升了模型的可解释性与生物学意义。
衍生相关工作
围绕Graph-TCGA-BRCA数据集,已衍生出多项经典研究工作,其中最突出的是GrapHist框架,该研究探索了图自监督学习在组织病理学中的应用。后续研究进一步扩展了细胞图的构建策略与特征编码方法,例如引入多尺度图卷积网络以融合组织层级信息,或结合注意力机制增强关键细胞区域的建模。这些工作共同推动了图机器学习在癌症病理分析中的范式演进,并为跨模态医学数据融合提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作