Histopathology Datasets for Machine Learning
收藏github2024-05-21 更新2024-05-31 收录
下载链接:
https://github.com/maduc7/Histopathology-Datasets
下载链接
链接失效反馈官方服务:
资源简介:
这是一个公开的组织病理学数据集列表,用于分类、分割、回归和/或注册任务。
This is a publicly available list of histopathology datasets, designed for classification, segmentation, regression, and/or registration tasks.
创建时间:
2022-07-22
原始信息汇总
数据集概述
本数据集列表包含多个公开的组织病理学数据集,用于机器学习任务,包括分类、分割、回归和/或注册。数据集涵盖多种器官和染色方法,适用于不同的分析需求。
数据集详情
| 数据集名称 | 涉及器官 | 染色方法 | 数据集链接 | 大小(训练/测试) | 数据类型 | 任务类型 | 数据格式 | 其他信息(放大倍数、扫描仪) | 发布年份 |
|---|---|---|---|---|---|---|---|---|---|
| ACDC-LungHP | Lung | H&E | 链接 | Train: 150, Test: 50 | 图像 + xml | 分割 + 分类 | wsi | 2019 | |
| AROBAT 2022 | Breast | 多种(IHC, H&E) | 链接 | Train: 750, Valid: 100, Test: 300 | 图像 + 地标 | 注册 | wsi | 40x - Hamamatsu | 2022 |
| Adipocyte | skin | H&E | 链接 | 200 patches | 图像+掩码 | 细胞检测 | patch (120x150) | 40x | 2017 |
| ADP | 多种 | 多种(大部分H&E) | 链接 | Train: 14.134, Valid: 1767, Test: 1767 | 图像 + 57种层次化HTTs | 多标签分类(层次化) | patch (1088x1088) | 40x - Huron TissueScope LE1.2 WSI | 2019 |
| AGGC | prostate | H&E | 链接 | 多个子集,详见表格 | 图像 + 二进制掩码 | 分割 + Gleason分级 | wsi | 20x - 多种扫描仪 | 2022 |
| AML-Cytomorphology_LMU | Blood | Wrights stain | 链接 | 18.365 图像 | 图像 + 标签 | 分类 | patch (细胞) | 100x - M8数字显微镜/扫描仪 | 2019 |
| ANHIR | 多种(肺、肾、结肠、胃、乳腺) | 多种 | 链接 | 50+ 组 | 图像 + 地标 | 注册 | patch (15k x 15k 至 50k x 50k) | 多种放大倍数,不同扫描仪 | 2019 |
| ARCH | 多种 | 多种 | 链接 | 4270 | 图像 + 标题 | 从文本和图像学习表示 | patch | 多种 | 2020 |
| BACH - ICIA2018 | Breast | H&E | 链接 | 400 | 图像 + 标签 | 分类 + 分割 | Patch (2048x1536) + WSI | Leica SCN400 | 2018 |
| BCNB | Breast | H&E | 链接 | 1058 | 图像 + ROI标注 + 患者记录 | 二进制或多类分类 | wsi | 2021 | |
| BCSS | Breast | H&E | 链接 | 151 wsi, 20.000 patch | 图像 + 分割掩码 | 语义分割 | patch | (TCGA) | 2019 |
| Bone-Marrow-Cytomorphology | Marrow | May-Grünwald-Giemsa/Pappenheim | 链接 | 171.375 细胞 | 图像 + 标签 | 分类(21类) | patch (250x250 - 单细胞) | 40x | 2021 |
| BRACS | Breast | H&E | 链接 | 547 wsi, 4539 ROIs | 图像 + 标签 | 分类(7类) | wsi + patch | 40x - Aperio AT2 | 2021 |
| BreakHis | Breast | H&E | 链接 | 7.909 | 图像 + 二进制标签 + 肿瘤类型 | 分类 | Patch (700x460) | 40x, 100x, 200x, 400x | 2016 |
| BRCA-M2C | breast | H&E | 链接 | 训练: 80, 验证: 10, 测试: 30 patches | 图像+点注释 | 多类细胞检测 | patch (约500x500) | 20x | 2021 |
| BreCaHAD | Breast | H&E | 链接 | 162 | 图像 + 带标签的质心 | 分类(6类) | patch (1360x1024) | 40x - Zeiss | 2019 |
| CAMEL | Colon | 链接 | 177 wsi | 图像 + 标签 | 分类 | patch (1280x1280) | 2019 | ||
| CAMELYON16 | Lymph node | H&E | 链接 | Train: 270, Test: 130 | 图像 + 二进制掩码 | 分类 + 分割 | WSI | 幻灯片级分析 | 2016 |
| CAMELYON17 | Lymph node | H&E | 链接 | Train: 500, Test: 500 | 图像 + 二进制掩码 | 分类 + 分割 | WSI | 患者级分析 | 2017 |
| CAMELYON | Breast (Lymph node) | H&E | 链接 | 1399 wsi | wsi | 2017 | |||
| CATCH | Skin (Canine) | H&E | 链接 | 350 wsi, 12.424 多边形注释 | 图像 + 轮廓(JSON) | 分割 + 分类 | wsi | 40x Aperio ScanScope CS2 (Leica) | 2022 |
| Cellseg | 多种 | 多种 | 链接 | 图像 + 有限标注的补丁 | 实例(细胞)分割 | wsi | 2022 | ||
| Chaoyang | Colon | H&E | 链接 | 训练: 111 正常, 842 锯齿状, 1404 腺癌, 664 腺瘤, 测试: 705 正常, 321 锯齿状, 840 腺癌, 273 腺瘤 | 图像 + 标签 | 分类 | patch (512×512) | 2021 | |
| CoCaHis | Colon | H&E | 链接 | 82 | 图像 + 来自不同注释者的掩码 | 分割 | patch | 2021 | |
| CoNIC 2022 | Colon | H&E | 链接 | 4981 patch, 431.913 核 | 图像 + 实例分割掩码 + 分类掩码 | 分割 + 分类 + 注册 | patch (256x256) | 20x | 2022 |
| CoNSeP - HoVer-Net | Colorectal adenocarcinoma | H&E | 链接 | 训练: 27 图像, 测试: 14 图像, 24.319 核 | 图像 + 核(位置 + 类别) | 实例分割 + 分类(7类) | patch (1000x1000) | 40x (UHCW) | 2019 |
| CPM-15 | brain | H&E | 链接 | 15 | 图像 + 核分割 + 标签 | 分割 + 分类 | patch (400x400, 600x1000) | 20x, 40x (TCGA) | |
| CPM-17 | brain | H&E | 链接 | 训练: 32, 测试: 32 (7570 核) | 图像 + 核分割 + 标签 | 分割 + 分类 | patch (500x500 至 600x600) | 20x, 40x (TCGA) | 2019 |
| CPTAC-AML | Marrow, Blood | 链接 | 120 图像 | 40x | 2020 | ||||
| CPTAC-BRCA | Breast | 链接 | 642 图像 | 40x | 2021 | ||||
| CPTAC-COAD | Colon | 链接 | 373 图像 | 40x | 2021 | ||||
| CPTAC-OV | Ovary | 链接 | 222 图像 | 40x | 2021 | ||||
| CRAG - MILD-Net | Colon | H&E | 链接 | 训练: 173, 验证: 40 | 图像 + 分割 | 实例分割 | patch (约1500x1500) | 20x | 2019 |
| CRCHisto | Colon | H&E | 链接 | 100 图像, 29.756 核 | 图像 + 点核类别标签 | 分割 + 分类(上皮、炎症、成纤维细胞、杂项) | patch (500x500) | 20x - Omnyx VL120 (UHCW) | 2016 |
| CRC-TP | CRC | H&E | 链接 | 280k 补丁 | 图像 + 组织表型 | 分类 | patch | 2020 | |
| CryoNuSeg | 多种(10种) | H&E | 链接 | 8000 核 | 图像 + 分割掩码 + 二进制标签 | 核分割 | patch (512x512) | 40x (来自TCGA) | 2021 |
| DHMC-Kidney | Renal Cell Carcinoma | H&E | 链接 | 563 wsi | 图像 + 标签 | 分类 | wsi | 20x - Aperio AT2 | 2021 |
| DHMC-Lung | Lung Adenocarcinoma | H&E | 链接 | 143 wsi | 图像 + 标签 | 分类 | wsi | 20x 或 40x - Aperio AT2 | 2019 |
| DiagSeg | Prostate | H&E | 链接 | >2.6M 补丁 | 430 完全标注扫描, 4675 带二进制诊断扫描, 46 独立由9位病理学家诊断扫描 | 分类(256×256) | patch | 5x, 10x, 20x, 40x - Hamamatsu C12000-22 | 2021 |
| DigestPath2019 - signet ring cell | 多种(胃、肠) | H&E | 链接 | 训练: 46 |
搜集汇总
数据集介绍

构建方式
Histopathology Datasets for Machine Learning 数据集的构建方式主要通过收集和整理公开的病理学数据集,涵盖了多种器官和染色方法。这些数据集包括了从不同来源获取的图像和相关标注,如分割掩码、分类标签和注册点等。数据集的构建过程中,确保了数据的多样性和代表性,以支持机器学习任务如分类、分割、回归和注册等。此外,数据集还包含了详细的元数据,如图像的放大倍数、扫描设备信息等,以确保数据的可靠性和可重复性。
特点
该数据集的主要特点在于其广泛性和多样性。它涵盖了多个器官和多种染色方法,包括H&E染色和免疫组化(IHC)等,提供了丰富的病理学图像资源。数据集中的任务类型多样,包括分类、分割、回归和注册等,能够满足不同研究需求。此外,数据集还提供了详细的元数据,如图像的放大倍数和扫描设备信息,增强了数据的可解释性和实用性。
使用方法
使用Histopathology Datasets for Machine Learning数据集时,用户可以根据具体的研究需求选择合适的数据子集。数据集提供了详细的分类和标注信息,支持多种机器学习任务的训练和验证。用户可以通过访问数据集的GitHub页面获取数据链接和相关文献,确保数据的合法使用。在使用过程中,建议用户参考数据集的README文件,了解数据的结构和使用规范,以确保研究结果的准确性和可靠性。
背景与挑战
背景概述
组织病理学数据集在机器学习中的应用,特别是针对分类、分割、回归和/或配准任务,已成为生物医学图像分析领域的重要研究方向。这些数据集的创建和公开,为研究人员提供了丰富的资源,以推动病理学图像分析技术的发展。自2016年以来,多个机构和研究人员共同贡献了大量高质量的组织病理学图像数据集,涵盖了多种器官和染色方法,极大地促进了该领域的研究进展。这些数据集不仅支持基础研究,还在临床诊断和治疗中展现出潜在的应用价值。
当前挑战
尽管组织病理学数据集在机器学习中的应用取得了显著进展,但仍面临诸多挑战。首先,数据集的多样性和复杂性使得模型训练和验证变得复杂,不同器官和染色方法的差异增加了数据处理的难度。其次,数据集的标注质量和一致性问题,尤其是在多机构合作中,标注标准的不统一可能导致模型性能的波动。此外,大规模数据集的存储和处理需求对计算资源提出了高要求,如何在有限的资源下高效利用这些数据集是一个亟待解决的问题。最后,数据隐私和安全问题在生物医学数据处理中尤为重要,如何在确保数据安全的前提下进行有效的数据共享和研究是一个持续的挑战。
常用场景
经典使用场景
在病理学领域,Histopathology Datasets for Machine Learning数据集被广泛用于分类、分割、回归和/或配准任务。该数据集涵盖了多种器官和染色方法,为研究人员提供了丰富的病理图像资源。经典的使用场景包括利用这些图像进行肿瘤分类、细胞检测和组织分割,从而辅助病理学家进行更精确的诊断和治疗方案制定。
实际应用
在实际应用中,Histopathology Datasets for Machine Learning数据集被用于开发和验证病理图像分析工具。这些工具可以集成到医院的信息系统中,帮助病理学家快速分析大量病理图像,提高诊断效率。此外,该数据集还支持药物研发过程中的病理学评估,加速新药的临床试验进程。
衍生相关工作
基于Histopathology Datasets for Machine Learning数据集,许多经典工作得以展开。例如,研究人员开发了多种深度学习模型,用于肿瘤的自动分类和细胞核的精确分割。此外,该数据集还促进了跨学科的合作,如计算机视觉与病理学的结合,推动了医学图像分析技术的发展。这些工作不仅在学术界产生了深远影响,也在实际临床应用中展现了巨大潜力。
以上内容由遇见数据集搜集并总结生成



