TCGA-COAD
收藏arXiv2025-05-13 更新2025-05-20 收录
下载链接:
http://arxiv.org/abs/2505.08430v1
下载链接
链接失效反馈资源简介:
TCGA-COAD数据集是由中国科学院自动化研究所智能控制与机器人重点实验室的研究团队创建的,包含225张全切片图像(WSI)和5041个三级淋巴组织结构(TLS)的标注数据。数据集主要用于评估TLS的成熟度和区域,对于各种预后任务具有重要意义。该数据集通过将WSI分割成非重叠的图像块,并利用图神经网络(GNN)来聚合来自目标及其邻近区域的多跳上下文信息,以实现对TLS区域的精确分割。该数据集的创建旨在解决传统细胞代理任务和后处理步骤的局限性,为WSI分割提供了一种新的解决方案。
The TCGA-COAD dataset was developed by the research team from the Key Laboratory of Intelligent Control and Robotics, Institute of Automation, Chinese Academy of Sciences. It consists of 225 whole-slide images (WSIs) and annotated data for 5041 tertiary lymphoid structure (TLS) instances. This dataset is mainly utilized to assess the maturity and regional distribution of TLSs, and is of great importance for various prognostic tasks. Specifically, it splits WSIs into non-overlapping image patches, and leverages graph neural networks (GNNs) to aggregate multi-hop contextual information from target regions and their adjacent areas, thereby achieving accurate segmentation of TLS regions. The creation of this dataset is intended to address the limitations of traditional cell-based proxy tasks and post-processing workflows, offering a new solution for WSI segmentation.
提供机构:
中国科学院自动化研究所智能控制与机器人重点实验室 (CASIA)
创建时间:
2025-05-13
AI搜集汇总
数据集介绍

构建方式
TCGA-COAD数据集构建基于结肠腺癌的病理全切片图像(WSI),通过严格筛选高质量WSI并由病理学家进行精细标注,最终包含225张WSI和5041个三级淋巴结构(TLS)区域。标注过程未依赖多重免疫组化技术,确保了数据的独立性和可靠性。数据集按WSI级别以6:2:2比例划分为训练集、验证集和测试集,图像预处理采用256×256像素的非重叠分块策略,空间分辨率为1微米/像素。
特点
该数据集聚焦三级淋巴结构语义分割(TLS-SS)任务,首次实现了对TLS区域及其成熟阶段(e-TLS、pel-TLS、sel-TLS)的端到端像素级标注。其显著特点包括:1)覆盖多成熟阶段的精细标注,突破传统检测或分类任务的局限性;2)基于TCGA的公开数据源,具备可复现性和扩展性;3)配套提出GNCAF框架,通过图神经网络聚合多跳邻域上下文,显著提升模型对WSI大尺度上下文的感知能力,在mIoU指标上最高提升26.57%。
使用方法
使用该数据集时需结合GNCAF框架的层级化处理流程:首先通过视觉编码器提取图像块特征,随后构建空间连通性图模型,利用图卷积网络渐进聚合目标块的多跳邻域上下文信息,最终通过自注意力机制融合局部与上下文特征进行分割预测。实验表明,该数据集适用于TransUNet、Swin-UNet等多种分割模型的性能验证,需设置3跳邻域范围、8头注意力机制等超参数,批处理规模建议为16,学习率设为5×10^-5可获得最优性能。
背景与挑战
背景概述
TCGA-COAD数据集是由中国科学院自动化研究所等机构的研究团队于2025年构建的,专注于全切片图像(WSI)中三级淋巴结构(TLS)的语义分割任务。该数据集包含225张WSI图像和5041个标注的TLS区域,旨在通过端到端的方式同时分割TLS区域及其成熟阶段。TLS作为肿瘤免疫微环境中的重要组成部分,其成熟度和分布对癌症预后评估具有重要价值。TCGA-COAD的发布填补了计算病理学领域在TLS语义分割任务上的数据空白,为相关算法的开发和验证提供了重要资源。
当前挑战
TCGA-COAD数据集面临的挑战主要体现在两个方面:首先,在领域问题层面,TLS语义分割需要同时解决区域分割和成熟度分类的双重任务,这对模型的上下文感知能力和多尺度特征融合提出了较高要求;其次,在数据构建过程中,由于WSI图像尺寸巨大且TLS分布稀疏,标注工作需病理专家耗费大量时间进行精细标注,且不同成熟阶段的TLS在形态学上差异细微,增加了标注的一致性和准确性难度。此外,基于patch的分割策略如何有效整合相邻区域的上下文信息,也是算法开发中的关键挑战。
常用场景
经典使用场景
TCGA-COAD数据集在计算病理学领域被广泛用于三级淋巴结构(TLS)的语义分割研究。该数据集通过提供高分辨率的全切片图像(WSI)和详细的TLS区域标注,支持研究人员开发端到端的深度学习模型,以精确识别和分类不同成熟阶段的TLS。其经典使用场景包括结合图神经网络(GNN)的上下文聚合框架,如GNCAF,以提升模型对WSI中长距离上下文信息的感知能力。
衍生相关工作
围绕TCGA-COAD数据集衍生的经典工作包括多分辨率分割框架(如HookNet)、基于Transformer的TransUNet变体,以及首创的GNCAF上下文聚合架构。这些工作通过创新性地整合图神经网络与注意力机制,显著提升了模型在复杂组织环境中的分割性能。数据集还促进了跨机构合作,例如与CAMELYON16数据的联合验证,证明了TLS分析方法在更广泛WSI任务中的迁移潜力。
数据集最近研究
最新研究方向
在计算病理学领域,TCGA-COAD数据集的最新研究方向聚焦于三级淋巴结构(TLS)的语义分割任务。TLS作为肿瘤微环境中的重要免疫细胞聚集区,其成熟度与空间分布对预后评估具有关键意义。当前研究突破在于采用图神经网络(GNN)构建的邻域上下文聚合框架(GNCAF),通过多跳邻域信息传递机制解决全切片图像(WSI)中局部与全局上下文信息融合的难题。该框架创新性地将自注意力机制与渐进式上下文聚合相结合,在公开的TCGA-COAD数据集上实现了26.57%的mIoU提升,同时验证了其在淋巴结转移分割任务中的泛化能力。这一技术进展不仅为肿瘤免疫微环境分析提供了新工具,更推动了多尺度病理图像分析范式从细胞级别向组织结构级别的跨越。
相关研究论文
- 1GNCAF: A GNN-based Neighboring Context Aggregation Framework for Tertiary Lymphoid Structures Semantic Segmentation in WSI中国科学院自动化研究所智能控制与机器人重点实验室 (CASIA) · 2025年
以上内容由AI搜集并总结生成



