conflux-xyz/tcga-tissue-segmentation

Name: conflux-xyz/tcga-tissue-segmentation
Creator: conflux-xyz
Published: 2025-02-14 00:07:34
License: 暂无描述

Hugging Face2025-02-14 更新2025-02-15 收录

下载链接：

https://hf-mirror.com/datasets/conflux-xyz/tcga-tissue-segmentation

下载链接

链接失效反馈

官方服务：

资源简介：

TCGA组织分割数据集包含242张来自癌症基因组图谱（TCGA）病理数据集的手动注释图像，用于组织的分割（即存在或不存在组织的像素级注释）。每张图像都是全TCGA切片（主要是H&E染色），缩小到每像素10微米（MPP）并保存为PNG格式。每个图像都有一个对应的掩膜，保存为PNG格式，其像素值对应于10 MPP图像中相同位置的像素，图像掩膜的像素值要么是0（无组织），要么是255（组织）。数据集还包含了建议的训练/测试分割的文本文件。这些切片是从TCGA中选择出来的，包含了标准的组织分割算法经常失败的代表性伪迹，如笔迹、墨水、气泡、裂缝和标签。切片主要是H&E染色，包括FFPE和冷冻样本。数据集的注释模式故意包括所有存在的组织，包括坏死的组织和部分被遮挡的组织。该数据集可以用于构建包含整体组织区域以及其他覆盖掩膜（如细胞或组织类型、伪迹存在等）的场景图表示。

The TCGA Tissue Segmentation dataset consists of 242 manually annotated images from The Cancer Genome Atlas (TCGA) pathology dataset for tissue segmentation (i.e., pixel-level annotation of the presence or absence of tissue). Each image is a full TCGA slide (mostly H&E stained) downscaled to 10 microns per pixel (MPP) and saved in PNG format. Each image has a corresponding mask also saved in PNG format, where each pixel corresponds to the pixel at the same position in the 10 MPP image, with pixel values of 0 (no tissue) or 255 (tissue). The dataset includes text files `train-slides.txt` and `test-slides.txt` providing a suggested train/test split of 194 training images (~80%) and 48 test images (~20%). The slides were selected from TCGA to include representative artifacts such as pen markings, ink, air bubbles, cracks, and slide labels that often cause standard tissue segmentation algorithms to fail. The slides are predominantly H&E stained and include both FFPE and frozen samples. The annotation schema of the dataset deliberately includes all tissue present, including necrotic tissue and tissue that is partially occluded, for applications that combine this model with other artifact detection models to build a scene graph representation of slide content, including overall tissue area and other overlay masks such as cell or tissue type, artifact presence, etc.

提供机构：

conflux-xyz

搜集汇总

数据集介绍

构建方式

在数字病理学领域，精确的组织分割对于癌症诊断与研究至关重要。该数据集从癌症基因组图谱（TCGA）病理数据集中精选了242张全切片图像，这些图像主要涵盖H&E染色样本，并包含福尔马林固定石蜡包埋与冷冻样本。每张图像均经过下采样至每像素10微米分辨率，并以PNG格式保存。为确保数据质量，所有图像均经过人工像素级标注，生成对应的二值掩膜，其中像素值0代表无组织区域，255代表组织区域。数据构建过程中，特意纳入了具有代表性的人工痕迹，如笔迹、墨水、气泡、裂痕及玻片标签，以模拟真实场景中组织分割算法常面临的挑战。

使用方法

在计算病理学研究中，该数据集为组织分割模型的训练与评估提供了标准化流程。用户可通过提供的Python代码示例便捷加载图像与掩膜，其中图像以RGB格式存储，掩膜则转换为布尔数组以标识组织存在与否。数据集目录结构清晰，包含独立的图像与掩膜文件夹，以及划分训练与测试集的文本文件，便于按需读取。实际应用中，该数据集可与其他人工痕迹检测模型结合，构建全面的玻片内容场景图，进而支持组织面积计算、细胞或组织类型分析等多层次病理学量化研究，为癌症诊断的自动化辅助工具开发奠定数据基础。

背景与挑战

背景概述

在数字病理学领域，组织分割是定量分析的基础步骤，旨在从全切片图像中精准区分组织区域与非组织背景。TCGA组织分割数据集由conflux-xyz团队构建，依托癌症基因组图谱（TCGA）的病理学资源，于近年发布。该数据集包含242张全切片图像，涵盖H&E染色样本，并提供了像素级的手动标注掩膜，核心研究问题聚焦于提升在复杂病理图像中组织分割的鲁棒性与准确性。通过纳入代表性的人工标记、墨水、气泡等常见伪影，该数据集为开发抗干扰的分割算法提供了关键基准，推动了计算病理学中组织形态定量分析的发展。

当前挑战

该数据集旨在解决数字病理图像中组织分割的挑战，特别是在存在多种伪影干扰下的精确分割问题。构建过程中的主要挑战包括：首先，从TCGA海量数据中筛选出包含典型伪影的样本，以确保数据集的代表性与多样性；其次，进行像素级手动标注时，需准确区分组织区域与非组织背景，并处理坏死组织、部分遮挡组织等边缘情况，这对标注者的专业病理学知识提出了较高要求。此外，数据集规模相对有限，可能影响深度学习模型的泛化能力，需通过数据增强或迁移学习策略加以弥补。

常用场景

经典使用场景

在数字病理学领域，组织分割是分析全玻片图像的基础步骤，旨在区分组织区域与非组织背景。TCGA Tissue Segmentation数据集通过提供242张来自癌症基因组图谱的病理图像及其像素级标注，为训练和评估深度学习模型提供了标准资源。这些图像涵盖了多种常见的人工伪影，如笔迹标记、气泡和裂纹，使得模型能够在复杂场景下准确识别组织边界，从而支持后续的定量病理分析。

解决学术问题

该数据集直接应对了组织分割算法在存在伪影干扰时的鲁棒性挑战。传统方法往往在遇到笔迹、墨水或气泡等人工痕迹时失效，导致组织区域误判。通过引入包含这些代表性伪影的标注数据，研究者能够开发更稳健的算法，提升分割精度。这不仅推动了计算机视觉在医学图像分析中的进步，也为癌症研究中的组织形态定量分析提供了可靠工具，促进了精准医疗的发展。

实际应用

在实际临床与科研环境中，TCGA Tissue Segmentation数据集的应用显著优化了病理工作流程。例如，在自动化病理诊断系统中，准确的组织分割能够优先提取组织区域进行后续细胞检测或肿瘤分级，减少计算资源浪费。同时，该数据集支持构建场景图表示，整合组织掩膜与其他覆盖层（如细胞类型或伪影检测），助力开发全面的玻片内容分析平台，提升病理学家的工作效率与诊断一致性。

数据集最近研究