five

OncologyDataset

收藏
github2025-10-22 更新2025-10-23 收录
下载链接:
https://github.com/swpatho-lab/OncologyDataset
下载链接
链接失效反馈
官方服务:
资源简介:
肿瘤相关的开源数据集,包括但不限于影像、病理、细胞学、预后、多组学病理数据。具体涵盖病理数据(如肠癌、乳腺癌、前列腺癌、肺癌、胃癌、食管癌、混合癌种的病理图数据、病理图文本数据、组织细胞分割数据)、多组学数据(如单细胞测序数据、空间组学数据)、影像数据(如胶质母细胞瘤)和临床数据,提供了数据来源、任务、组织类型、染色类型、数据数量、数据配对情况、数据标签信息等详细信息。

An open-source tumor-related dataset covering but not limited to imaging, pathological, cytological, prognostic, and multi-omic data. Specifically, it includes pathology data (e.g., pathological image data, pathological image text data, and tissue cell segmentation data for colorectal cancer, breast cancer, prostate cancer, lung cancer, gastric cancer, esophageal cancer, and mixed cancer types), multi-omic data (e.g., single-cell sequencing data, spatial omics data), imaging data (e.g., glioblastoma-related imaging data), and clinical data. Detailed information such as data sources, downstream tasks, tissue types, staining types, data volume, data pairing status, and data label information is provided for the dataset.
创建时间:
2025-10-21
原始信息汇总

OncologyDataset 数据集概述

数据集简介

肿瘤相关的开源数据集集合,涵盖影像、病理、细胞学、预后、多组学病理数据等多个领域。

数据分类

病理数据

病理图数据

肠癌

  • TCGA CRC-MSI:结直肠癌切片,H&E染色,用于微卫星不稳定性识别
  • 数据量:训练集19557个patch,测试集32361个patch

乳腺癌

  • CAMELYON16:乳腺癌前哨淋巴结,H&E染色,用于淋巴结转移识别
  • TCGA-BRCA:H&E染色,用于分型、预后等任务
  • BCSS:H&E染色,用于组织分割

前列腺癌

  • PANDA:穿刺组织,H&E染色,用于分级(ISUP grade)

肺癌

  • TCGA-LUAD:肺腺癌切片,H&E染色,用于预后预测
  • 多个Kaggle数据集:组织学切片,H&E染色,用于癌症分类

胃癌

  • GastritisMIL:组织学切片,H&E染色,用于慢性萎缩性胃炎分级分类

食管癌

  • ESCA:食管腺癌切片,H&E染色,用于组织分类

混合癌种

  • MoNuSeg、TNBC、NuInsSeg:H&E染色,用于无类别细胞核检测
  • TCGA_Uniform_Tumor:H&E染色,用于泛癌分类
  • TCGA-TILs:H&E染色,用于肿瘤浸润淋巴细胞识别

病理图文本数据

  • ARCH:图片-文本标题对比学习
  • PathVQA:视觉问答
  • Quilt-1M:图片-文本标题对比学习
  • PathCap:图片-文本标题对比学习
  • PathInstruct:视觉指令跟随
  • Quilt-Instruct:视觉指令跟随
  • Quilt-VQA:视觉问答
  • PMC-VQA病理子集:视觉问答

组织细胞分割数据

宫颈癌

  • SIPaKMeD:宫颈癌细胞检测,巴氏染色
  • Cervix93:宫颈癌细胞核检测与分类,巴氏染色

多组学数据

空间组学数据

乳腺癌

  • MA31公开数据集:PDL1免疫组化,用于细胞分割/PDL1检测
  • BCCA公开数据集:PDL1免疫组化,用于细胞分割/PDL1检测
  • BCI公开数据集:HE&IHC染色,用于虚拟染色/虚拟IHC
  • MIST公开数据集:HE&IHC染色,用于虚拟染色/虚拟IHC

影像数据

胶质母细胞瘤

  • UPENN:MRI数据,用于临床、图像分析

数据特征

  • 主要染色类型:H&E染色为主
  • 数据格式:包含切片图像、标注文件、临床信息等
  • 任务类型:涵盖分类、分割、检测、预后预测等多种任务
  • 数据来源:TCGA、Kaggle、Zenodo等多个公开数据平台

更新信息

  • 初始版本发布时间:2025年10月21日
搜集汇总
数据集介绍
main_image_url
构建方式
在肿瘤学研究领域,数据集的构建需兼顾多样性与专业性。OncologyDataset通过整合多个权威来源如TCGA、CAMELYON16等,系统收集了涵盖病理图像、多组学测序、医学影像及临床信息的多模态数据。构建过程中采用了标准化的染色技术(如H&E、免疫组化)和统一的数据标注规范,确保数据质量与一致性。部分数据集还实现了跨模态配对,例如空间组学中的H&E与IHC切片对应,为多任务学习提供了坚实基础。
特点
该数据集展现出显著的跨癌种覆盖优势,囊括了结直肠癌、乳腺癌、肺癌等十余种常见肿瘤类型。其数据形态丰富多样,既包含高分辨率的全切片图像与细胞核分割标注,也整合了单细胞测序、空间转录组等前沿组学数据。特别值得注意的是,数据集突破了传统单一模态的局限,引入了病理图像-文本对、视觉问答等新型数据形态,为多模态大模型训练提供了稀缺资源。这种多层次、多尺度的数据架构,极大地拓展了肿瘤智能诊断的研究边界。
使用方法
针对不同研究需求,该数据集支持灵活的应用范式。对于病理图像分析,研究者可直接调用预处理的图像块及其对应标注,开展肿瘤分级、淋巴细胞浸润等计算机辅助诊断任务。在多组学整合研究中,可利用配对的空间组学与单细胞数据进行跨模态关联分析。对于新兴的病理大模型开发,数据集提供的图像-文本对和指令微调数据可作为预训练与微调的关键素材。所有数据均配备明确的任务定义与标签说明,支持端到端的模型训练与验证流程。
背景与挑战
背景概述
OncologyDataset作为肿瘤研究领域的重要开源资源,汇集了多模态医学数据,涵盖病理图像、多组学测序、医学影像及临床信息。该数据集由多个研究机构共同构建,如TCGA、CAMELYON等知名项目,旨在推动癌症的精准诊断与治疗研究。其核心研究问题聚焦于利用人工智能技术解析肿瘤异质性、预测疾病预后及识别生物标志物,对病理学、影像组学和生物信息学等领域产生了深远影响,为开发新型抗癌策略提供了数据支撑。
当前挑战
在肿瘤诊断领域,该数据集致力于应对高变异性的癌症亚型分类、微卫星不稳定性检测及肿瘤浸润淋巴细胞识别等复杂任务,这些挑战源于肿瘤组织的形态多样性和分子异质性。数据构建过程中,面临标注一致性难题,例如病理切片中细胞核分割的精细标注需跨专家验证;多中心数据整合存在标准化差异,不同染色协议和扫描设备导致数据异构;此外,临床信息与多组学数据的配对完整性亦构成显著障碍。
常用场景
经典使用场景
在肿瘤学研究中,OncologyDataset为人工智能模型训练提供了关键支持,尤其在病理图像分析领域。该数据集广泛应用于癌症分类任务,例如利用乳腺癌前哨淋巴结切片进行转移识别,以及通过前列腺癌穿刺样本实现组织学分级评估。这些应用不仅提升了诊断效率,还推动了自动化病理分析技术的发展。
实际应用
在临床实践中,该数据集支撑了智能诊断系统的开发,例如基于胃癌组织切片的分级系统可辅助医生评估慢性萎缩性胃炎严重程度。同时,其衍生的虚拟染色技术能通过H&E切片预测免疫组化标记,显著降低检测成本,为基层医疗机构提供可行的数字化病理解决方案。
衍生相关工作
基于该数据集产生的经典工作包括CAMELYON16挑战赛中开发的淋巴结转移检测算法,以及PANDA竞赛中提出的前列腺癌分级模型。在跨模态学习领域,PathVQA和Quilt系列研究开创了病理图像与文本的联合表征方法,为多模态医学人工智能奠定了重要基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作