Refined-TCGA-PRAD-Prostate-Cancer-Pathology-Dataset|前列腺癌病理学数据集|AI训练数据集
收藏数据集:TCGA PRAD前列腺癌病理数据集的二次意见及ROI级标注
概述
该数据集提供了TCGA PRAD前列腺癌数据集的增强Gleason分级标注,并支持基于感兴趣区域(ROI)的空间标注。该数据集由Codatta和DPath.ai合作开发,改进了原始TCGA-PRAD切片级标签的准确性和信息粒度。
动机
发现TCGA PRAD数据集的诊断标签存在改进空间,包括:
- 一些标签可以通过添加额外的诊断意见来增强。
- 一些标签缺乏Gleason模式的详细描述。
数据集内容
该数据集包含两个主要文件:
-
切片级标签(PRAD.csv)
- 包含全面的元数据和诊断细节:
slide_id
:唯一切片标识符。slide_name
:TCGA全切片图像(WSI)名称。label
:修正的Gleason等级(例如,4+3,5+4)。diagnosis
:病理学家提供的标签推理。num_rois
:每个切片的标注感兴趣区域(ROI)数量。
- 包含全面的元数据和诊断细节:
-
ROI级标注(.geojson)
- 提供肿瘤区域的空间坐标:
- 每个ROI对应特定的Gleason等级(例如,等级3,等级4)。
- 兼容QuPath等工具进行交互式可视化。
- 提供肿瘤区域的空间坐标:
关键统计
类型 | 数量 |
---|---|
TCGA WSI总数 | 435 |
与TCGA标签一致 | 190 |
改进的标签和ROI | 245 |
重新标注和标签过程
- 案例筛选:专家委员会识别需要审查的切片。
- 标注:初级病理学家进行初始ROI级标注。
- 专家审查:高级病理学家验证和改进标注。
- 增强:
- 肿瘤区域的粒度ROI标注。
- 引入次级等级:例如,次级等级5表示Gleason等级5肿瘤的占比<5%。
- 病理学家推理:每个标签包括详细的标注过程解释。
对TCGA标签的改进
- 准确性:通过添加额外意见和提高粒度来增强切片级Gleason标签。
- 粒度:清晰标注主要、次要和次级肿瘤等级。
- 透明度:病理学家提供的推理确保了标签决策的透明性。
使用
用于AI训练管道
结合TCGA PRAD的全切片图像(WSI)与该数据集的切片级标签(PRAD.csv)和ROI标注(.geojson)生成高质量的[X, y]对。
用于病理学研究
使用ROI标注在WSI查看器(如QuPath)中交互式可视化标注的肿瘤区域。
许可证
该数据集在非商业用途下使用OpenRAIL-M许可证。商业用途需要单独的许可证。
致谢
该数据集是Codatta和DPath.ai的合作成果。

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
中国省级灾害统计空间分布数据集(1999-2020年)
该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。
国家地球系统科学数据中心 收录
中国知识产权局专利数据库
该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。
www.cnipa.gov.cn 收录