five

Refined-TCGA-PRAD-Prostate-Cancer-Pathology-Dataset

收藏
Hugging Face2024-12-18 更新2024-12-19 收录
下载链接:
https://huggingface.co/datasets/Codatta/Refined-TCGA-PRAD-Prostate-Cancer-Pathology-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集提供了TCGA PRAD前列腺癌数据集的增强版Gleason分级注释,基于感兴趣区域(ROI)级别的空间注释。数据集包括两个主要文件:包含全面元数据和诊断细节的幻灯片级别标签文件(PRAD.csv),以及提供肿瘤区域空间坐标的ROI级别注释文件(.geojson)。数据集的改进包括增强的Gleason标签、更细粒度的ROI级别注释以及病理学家提供的详细推理,以确保标签决策的透明性。数据集适用于AI训练管道和病理学研究,并提供了加载和使用数据集的示例步骤。

This dataset provides enhanced Gleason grading annotations for the TCGA PRAD prostate cancer dataset, which are based on region-of-interest (ROI)-level spatial annotations. The dataset consists of two core files: a slide-level label file (PRAD.csv) containing comprehensive metadata and diagnostic details, and an ROI-level annotation file (.geojson) that provides spatial coordinates of tumor regions. The improvements of this dataset include enhanced Gleason labels, finer-grained ROI-level annotations, and detailed justifications provided by pathologists to ensure the transparency of label decision-making. This dataset is applicable to AI training pipelines and pathological research, and it also provides example steps for loading and utilizing the dataset.
创建时间:
2024-12-17
原始信息汇总

数据集:TCGA PRAD前列腺癌病理数据集的二次意见及ROI级标注

概述

该数据集提供了TCGA PRAD前列腺癌数据集的增强Gleason分级标注,并支持基于感兴趣区域(ROI)的空间标注。该数据集由Codatta和DPath.ai合作开发,改进了原始TCGA-PRAD切片级标签的准确性和信息粒度。

动机

发现TCGA PRAD数据集的诊断标签存在改进空间,包括:

  • 一些标签可以通过添加额外的诊断意见来增强。
  • 一些标签缺乏Gleason模式的详细描述。

数据集内容

该数据集包含两个主要文件:

  1. 切片级标签(PRAD.csv)

    • 包含全面的元数据和诊断细节:
      • slide_id:唯一切片标识符。
      • slide_name:TCGA全切片图像(WSI)名称。
      • label:修正的Gleason等级(例如,4+3,5+4)。
      • diagnosis:病理学家提供的标签推理。
      • num_rois:每个切片的标注感兴趣区域(ROI)数量。
  2. ROI级标注(.geojson)

    • 提供肿瘤区域的空间坐标:
      • 每个ROI对应特定的Gleason等级(例如,等级3,等级4)。
      • 兼容QuPath等工具进行交互式可视化。

关键统计

类型 数量
TCGA WSI总数 435
与TCGA标签一致 190
改进的标签和ROI 245

重新标注和标签过程

  1. 案例筛选:专家委员会识别需要审查的切片。
  2. 标注:初级病理学家进行初始ROI级标注。
  3. 专家审查:高级病理学家验证和改进标注。
  4. 增强
    • 肿瘤区域的粒度ROI标注。
    • 引入次级等级:例如,次级等级5表示Gleason等级5肿瘤的占比<5%。
    • 病理学家推理:每个标签包括详细的标注过程解释。

对TCGA标签的改进

  • 准确性:通过添加额外意见和提高粒度来增强切片级Gleason标签。
  • 粒度:清晰标注主要、次要和次级肿瘤等级。
  • 透明度:病理学家提供的推理确保了标签决策的透明性。

使用

用于AI训练管道

结合TCGA PRAD的全切片图像(WSI)与该数据集的切片级标签(PRAD.csv)和ROI标注(.geojson)生成高质量的[X, y]对。

用于病理学研究

使用ROI标注在WSI查看器(如QuPath)中交互式可视化标注的肿瘤区域。

许可证

该数据集在非商业用途下使用OpenRAIL-M许可证。商业用途需要单独的许可证。

致谢

该数据集是Codatta和DPath.ai的合作成果。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于对TCGA PRAD前列腺癌病理数据集的重新标注和精细化处理。通过与Codatta和DPath.ai的合作,组建了一个由全球病理学家组成的网络,对原始数据集中的245个病例进行了重新标注。重新标注过程包括初级病理学家的初步ROI(感兴趣区域)级别标注,随后由资深病理学家进行验证和精细化处理。此过程不仅引入了更细粒度的ROI标注,还增加了对Gleason评分中次要等级的标注,如Minor Grade 5,并提供了详细的病理学家推理,确保标注的透明性和准确性。
特点
该数据集的主要特点在于其高精度和细粒度的标注。与原始TCGA PRAD数据集相比,新数据集在Gleason评分标签上提供了更多的诊断意见和更详细的描述,显著提升了标签的准确性和粒度。此外,ROI级别的标注使得肿瘤区域的识别更加精确,适用于AI模型的训练和病理学研究的深入分析。数据集还包含了详细的病理学家推理,为标签的决策提供了透明的依据,增强了数据的可信度和应用价值。
使用方法
该数据集适用于AI模型的训练和病理学研究的深入分析。使用者可以通过结合TCGA PRAD的全切片图像(WSI)与数据集中的slide-level标签(PRAD.csv)和ROI标注(.geojson)来生成高质量的[X, y]对,用于AI模型的训练。对于病理学研究,用户可以使用ROI标注在WSI查看器(如QuPath)中交互式地可视化标记的肿瘤区域,并探索Gleason评分决策背后的详细推理。数据集的加载可以通过pandas读取CSV文件,或使用GeoPandas加载GeoJSON文件,结合TCGA PRAD的WSI进行进一步分析和应用。
背景与挑战
背景概述
Refined-TCGA-PRAD-Prostate-Cancer-Pathology-Dataset是由Codatta和DPath.ai合作开发的高精度前列腺癌病理数据集,旨在提升TCGA-PRAD数据集的标签质量和粒度。该数据集的核心研究问题在于通过区域兴趣(ROI)级别的注释,增强Gleason评分标签的准确性和透明度。该数据集的创建源于对原始TCGA-PRAD数据集中诊断标签的改进需求,特别是针对Gleason模式描述的不足。通过全球病理学家的协作,该数据集不仅提高了AI模型训练的标签可靠性,还推动了病理学研究的进展。
当前挑战
该数据集在构建过程中面临多项挑战。首先,原始TCGA-PRAD数据集的标签存在改进空间,部分标签缺乏详细的Gleason模式描述,这为AI病理模型带来了准确性挑战。其次,构建过程中需要通过专家委员会筛选病例,并由初级和高级病理学家进行多轮注释和验证,确保标签的准确性和透明度。此外,数据集的发布和更新也需平衡社区影响与数据质量,确保数据的高效利用和持续改进。
常用场景
经典使用场景
Refined-TCGA-PRAD-Prostate-Cancer-Pathology-Dataset 最经典的使用场景在于其为前列腺癌病理图像提供了精细化的 Gleason 分级标注,特别是通过 ROI(感兴趣区域)级别的注释,显著提升了标注的准确性和粒度。研究者可以利用这些高精度的标注数据,结合 TCGA PRAD 的全切片图像(WSI),训练和验证病理图像分析的 AI 模型,从而提高模型的诊断准确性和鲁棒性。
实际应用
在实际应用中,Refined-TCGA-PRAD-Prostate-Cancer-Pathology-Dataset 可用于开发和优化前列腺癌的自动化诊断系统。通过结合全切片图像和精细化的标注数据,医疗机构可以利用这些工具进行更准确的病理诊断,减少人为误差,提高诊断效率。此外,该数据集还可用于病理学教育和培训,帮助医学生和初级病理学家更好地理解 Gleason 分级及其在临床中的应用。
衍生相关工作
基于 Refined-TCGA-PRAD-Prostate-Cancer-Pathology-Dataset,研究者已开展了一系列相关工作,包括开发更高效的病理图像分析算法、探索多模态数据融合技术以提升诊断性能,以及构建基于深度学习的 Gleason 分级预测模型。这些工作不仅推动了 AI 在病理学中的应用,还为未来的病理学研究提供了新的思路和方法,特别是在如何利用高精度标注数据提升模型性能方面。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作