five

Refined-TCGA-PRAD-Prostate-Cancer-Pathology-Dataset|前列腺癌病理学数据集|AI训练数据集

收藏
huggingface2024-12-18 更新2024-12-19 收录
前列腺癌病理学
AI训练
下载链接:
https://huggingface.co/datasets/Codatta/Refined-TCGA-PRAD-Prostate-Cancer-Pathology-Dataset
下载链接
链接失效反馈
资源简介:
该数据集提供了TCGA PRAD前列腺癌数据集的增强版Gleason分级注释,基于感兴趣区域(ROI)级别的空间注释。数据集包括两个主要文件:包含全面元数据和诊断细节的幻灯片级别标签文件(PRAD.csv),以及提供肿瘤区域空间坐标的ROI级别注释文件(.geojson)。数据集的改进包括增强的Gleason标签、更细粒度的ROI级别注释以及病理学家提供的详细推理,以确保标签决策的透明性。数据集适用于AI训练管道和病理学研究,并提供了加载和使用数据集的示例步骤。
创建时间:
2024-12-17
原始信息汇总

数据集:TCGA PRAD前列腺癌病理数据集的二次意见及ROI级标注

概述

该数据集提供了TCGA PRAD前列腺癌数据集的增强Gleason分级标注,并支持基于感兴趣区域(ROI)的空间标注。该数据集由Codatta和DPath.ai合作开发,改进了原始TCGA-PRAD切片级标签的准确性和信息粒度。

动机

发现TCGA PRAD数据集的诊断标签存在改进空间,包括:

  • 一些标签可以通过添加额外的诊断意见来增强。
  • 一些标签缺乏Gleason模式的详细描述。

数据集内容

该数据集包含两个主要文件:

  1. 切片级标签(PRAD.csv)

    • 包含全面的元数据和诊断细节:
      • slide_id:唯一切片标识符。
      • slide_name:TCGA全切片图像(WSI)名称。
      • label:修正的Gleason等级(例如,4+3,5+4)。
      • diagnosis:病理学家提供的标签推理。
      • num_rois:每个切片的标注感兴趣区域(ROI)数量。
  2. ROI级标注(.geojson)

    • 提供肿瘤区域的空间坐标:
      • 每个ROI对应特定的Gleason等级(例如,等级3,等级4)。
      • 兼容QuPath等工具进行交互式可视化。

关键统计

类型 数量
TCGA WSI总数 435
与TCGA标签一致 190
改进的标签和ROI 245

重新标注和标签过程

  1. 案例筛选:专家委员会识别需要审查的切片。
  2. 标注:初级病理学家进行初始ROI级标注。
  3. 专家审查:高级病理学家验证和改进标注。
  4. 增强
    • 肿瘤区域的粒度ROI标注。
    • 引入次级等级:例如,次级等级5表示Gleason等级5肿瘤的占比<5%。
    • 病理学家推理:每个标签包括详细的标注过程解释。

对TCGA标签的改进

  • 准确性:通过添加额外意见和提高粒度来增强切片级Gleason标签。
  • 粒度:清晰标注主要、次要和次级肿瘤等级。
  • 透明度:病理学家提供的推理确保了标签决策的透明性。

使用

用于AI训练管道

结合TCGA PRAD的全切片图像(WSI)与该数据集的切片级标签(PRAD.csv)和ROI标注(.geojson)生成高质量的[X, y]对。

用于病理学研究

使用ROI标注在WSI查看器(如QuPath)中交互式可视化标注的肿瘤区域。

许可证

该数据集在非商业用途下使用OpenRAIL-M许可证。商业用途需要单独的许可证。

致谢

该数据集是Codatta和DPath.ai的合作成果。

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于对TCGA PRAD前列腺癌病理数据集的重新标注和精细化处理。通过与Codatta和DPath.ai的合作,组建了一个由全球病理学家组成的网络,对原始数据集中的245个病例进行了重新标注。重新标注过程包括初级病理学家的初步ROI(感兴趣区域)级别标注,随后由资深病理学家进行验证和精细化处理。此过程不仅引入了更细粒度的ROI标注,还增加了对Gleason评分中次要等级的标注,如Minor Grade 5,并提供了详细的病理学家推理,确保标注的透明性和准确性。
特点
该数据集的主要特点在于其高精度和细粒度的标注。与原始TCGA PRAD数据集相比,新数据集在Gleason评分标签上提供了更多的诊断意见和更详细的描述,显著提升了标签的准确性和粒度。此外,ROI级别的标注使得肿瘤区域的识别更加精确,适用于AI模型的训练和病理学研究的深入分析。数据集还包含了详细的病理学家推理,为标签的决策提供了透明的依据,增强了数据的可信度和应用价值。
使用方法
该数据集适用于AI模型的训练和病理学研究的深入分析。使用者可以通过结合TCGA PRAD的全切片图像(WSI)与数据集中的slide-level标签(PRAD.csv)和ROI标注(.geojson)来生成高质量的[X, y]对,用于AI模型的训练。对于病理学研究,用户可以使用ROI标注在WSI查看器(如QuPath)中交互式地可视化标记的肿瘤区域,并探索Gleason评分决策背后的详细推理。数据集的加载可以通过pandas读取CSV文件,或使用GeoPandas加载GeoJSON文件,结合TCGA PRAD的WSI进行进一步分析和应用。
背景与挑战
背景概述
Refined-TCGA-PRAD-Prostate-Cancer-Pathology-Dataset是由Codatta和DPath.ai合作开发的高精度前列腺癌病理数据集,旨在提升TCGA-PRAD数据集的标签质量和粒度。该数据集的核心研究问题在于通过区域兴趣(ROI)级别的注释,增强Gleason评分标签的准确性和透明度。该数据集的创建源于对原始TCGA-PRAD数据集中诊断标签的改进需求,特别是针对Gleason模式描述的不足。通过全球病理学家的协作,该数据集不仅提高了AI模型训练的标签可靠性,还推动了病理学研究的进展。
当前挑战
该数据集在构建过程中面临多项挑战。首先,原始TCGA-PRAD数据集的标签存在改进空间,部分标签缺乏详细的Gleason模式描述,这为AI病理模型带来了准确性挑战。其次,构建过程中需要通过专家委员会筛选病例,并由初级和高级病理学家进行多轮注释和验证,确保标签的准确性和透明度。此外,数据集的发布和更新也需平衡社区影响与数据质量,确保数据的高效利用和持续改进。
常用场景
经典使用场景
Refined-TCGA-PRAD-Prostate-Cancer-Pathology-Dataset 最经典的使用场景在于其为前列腺癌病理图像提供了精细化的 Gleason 分级标注,特别是通过 ROI(感兴趣区域)级别的注释,显著提升了标注的准确性和粒度。研究者可以利用这些高精度的标注数据,结合 TCGA PRAD 的全切片图像(WSI),训练和验证病理图像分析的 AI 模型,从而提高模型的诊断准确性和鲁棒性。
实际应用
在实际应用中,Refined-TCGA-PRAD-Prostate-Cancer-Pathology-Dataset 可用于开发和优化前列腺癌的自动化诊断系统。通过结合全切片图像和精细化的标注数据,医疗机构可以利用这些工具进行更准确的病理诊断,减少人为误差,提高诊断效率。此外,该数据集还可用于病理学教育和培训,帮助医学生和初级病理学家更好地理解 Gleason 分级及其在临床中的应用。
衍生相关工作
基于 Refined-TCGA-PRAD-Prostate-Cancer-Pathology-Dataset,研究者已开展了一系列相关工作,包括开发更高效的病理图像分析算法、探索多模态数据融合技术以提升诊断性能,以及构建基于深度学习的 Gleason 分级预测模型。这些工作不仅推动了 AI 在病理学中的应用,还为未来的病理学研究提供了新的思路和方法,特别是在如何利用高精度标注数据提升模型性能方面。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录