five

Histopathology Datasets for Machine Learning

收藏
github2024-05-21 更新2024-05-31 收录
下载链接:
https://github.com/maduc7/Histopathology-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个公开的组织病理学数据集列表,用于分类、分割、回归和/或注册任务。

This is a publicly available list of histopathology datasets, designed for classification, segmentation, regression, and/or registration tasks.
创建时间:
2022-07-22
原始信息汇总

数据集概述

本数据集列表包含多个公开的组织病理学数据集,用于机器学习任务,包括分类、分割、回归和/或注册。数据集涵盖多种器官和染色方法,适用于不同的分析需求。

数据集详情

数据集名称 涉及器官 染色方法 数据集链接 大小(训练/测试) 数据类型 任务类型 数据格式 其他信息(放大倍数、扫描仪) 发布年份
ACDC-LungHP Lung H&E 链接 Train: 150, Test: 50 图像 + xml 分割 + 分类 wsi 2019
AROBAT 2022 Breast 多种(IHC, H&E) 链接 Train: 750, Valid: 100, Test: 300 图像 + 地标 注册 wsi 40x - Hamamatsu 2022
Adipocyte skin H&E 链接 200 patches 图像+掩码 细胞检测 patch (120x150) 40x 2017
ADP 多种 多种(大部分H&E) 链接 Train: 14.134, Valid: 1767, Test: 1767 图像 + 57种层次化HTTs 多标签分类(层次化) patch (1088x1088) 40x - Huron TissueScope LE1.2 WSI 2019
AGGC prostate H&E 链接 多个子集,详见表格 图像 + 二进制掩码 分割 + Gleason分级 wsi 20x - 多种扫描仪 2022
AML-Cytomorphology_LMU Blood Wrights stain 链接 18.365 图像 图像 + 标签 分类 patch (细胞) 100x - M8数字显微镜/扫描仪 2019
ANHIR 多种(肺、肾、结肠、胃、乳腺) 多种 链接 50+ 组 图像 + 地标 注册 patch (15k x 15k 至 50k x 50k) 多种放大倍数,不同扫描仪 2019
ARCH 多种 多种 链接 4270 图像 + 标题 从文本和图像学习表示 patch 多种 2020
BACH - ICIA2018 Breast H&E 链接 400 图像 + 标签 分类 + 分割 Patch (2048x1536) + WSI Leica SCN400 2018
BCNB Breast H&E 链接 1058 图像 + ROI标注 + 患者记录 二进制或多类分类 wsi 2021
BCSS Breast H&E 链接 151 wsi, 20.000 patch 图像 + 分割掩码 语义分割 patch (TCGA) 2019
Bone-Marrow-Cytomorphology Marrow May-Grünwald-Giemsa/Pappenheim 链接 171.375 细胞 图像 + 标签 分类(21类) patch (250x250 - 单细胞) 40x 2021
BRACS Breast H&E 链接 547 wsi, 4539 ROIs 图像 + 标签 分类(7类) wsi + patch 40x - Aperio AT2 2021
BreakHis Breast H&E 链接 7.909 图像 + 二进制标签 + 肿瘤类型 分类 Patch (700x460) 40x, 100x, 200x, 400x 2016
BRCA-M2C breast H&E 链接 训练: 80, 验证: 10, 测试: 30 patches 图像+点注释 多类细胞检测 patch (约500x500) 20x 2021
BreCaHAD Breast H&E 链接 162 图像 + 带标签的质心 分类(6类) patch (1360x1024) 40x - Zeiss 2019
CAMEL Colon 链接 177 wsi 图像 + 标签 分类 patch (1280x1280) 2019
CAMELYON16 Lymph node H&E 链接 Train: 270, Test: 130 图像 + 二进制掩码 分类 + 分割 WSI 幻灯片级分析 2016
CAMELYON17 Lymph node H&E 链接 Train: 500, Test: 500 图像 + 二进制掩码 分类 + 分割 WSI 患者级分析 2017
CAMELYON Breast (Lymph node) H&E 链接 1399 wsi wsi 2017
CATCH Skin (Canine) H&E 链接 350 wsi, 12.424 多边形注释 图像 + 轮廓(JSON) 分割 + 分类 wsi 40x Aperio ScanScope CS2 (Leica) 2022
Cellseg 多种 多种 链接 图像 + 有限标注的补丁 实例(细胞)分割 wsi 2022
Chaoyang Colon H&E 链接 训练: 111 正常, 842 锯齿状, 1404 腺癌, 664 腺瘤, 测试: 705 正常, 321 锯齿状, 840 腺癌, 273 腺瘤 图像 + 标签 分类 patch (512×512) 2021
CoCaHis Colon H&E 链接 82 图像 + 来自不同注释者的掩码 分割 patch 2021
CoNIC 2022 Colon H&E 链接 4981 patch, 431.913 核 图像 + 实例分割掩码 + 分类掩码 分割 + 分类 + 注册 patch (256x256) 20x 2022
CoNSeP - HoVer-Net Colorectal adenocarcinoma H&E 链接 训练: 27 图像, 测试: 14 图像, 24.319 核 图像 + 核(位置 + 类别) 实例分割 + 分类(7类) patch (1000x1000) 40x (UHCW) 2019
CPM-15 brain H&E 链接 15 图像 + 核分割 + 标签 分割 + 分类 patch (400x400, 600x1000) 20x, 40x (TCGA)
CPM-17 brain H&E 链接 训练: 32, 测试: 32 (7570 核) 图像 + 核分割 + 标签 分割 + 分类 patch (500x500 至 600x600) 20x, 40x (TCGA) 2019
CPTAC-AML Marrow, Blood 链接 120 图像 40x 2020
CPTAC-BRCA Breast 链接 642 图像 40x 2021
CPTAC-COAD Colon 链接 373 图像 40x 2021
CPTAC-OV Ovary 链接 222 图像 40x 2021
CRAG - MILD-Net Colon H&E 链接 训练: 173, 验证: 40 图像 + 分割 实例分割 patch (约1500x1500) 20x 2019
CRCHisto Colon H&E 链接 100 图像, 29.756 核 图像 + 点核类别标签 分割 + 分类(上皮、炎症、成纤维细胞、杂项) patch (500x500) 20x - Omnyx VL120 (UHCW) 2016
CRC-TP CRC H&E 链接 280k 补丁 图像 + 组织表型 分类 patch 2020
CryoNuSeg 多种(10种) H&E 链接 8000 核 图像 + 分割掩码 + 二进制标签 核分割 patch (512x512) 40x (来自TCGA) 2021
DHMC-Kidney Renal Cell Carcinoma H&E 链接 563 wsi 图像 + 标签 分类 wsi 20x - Aperio AT2 2021
DHMC-Lung Lung Adenocarcinoma H&E 链接 143 wsi 图像 + 标签 分类 wsi 20x 或 40x - Aperio AT2 2019
DiagSeg Prostate H&E 链接 >2.6M 补丁 430 完全标注扫描, 4675 带二进制诊断扫描, 46 独立由9位病理学家诊断扫描 分类(256×256) patch 5x, 10x, 20x, 40x - Hamamatsu C12000-22 2021
DigestPath2019 - signet ring cell 多种(胃、肠) H&E 链接 训练: 46
搜集汇总
数据集介绍
main_image_url
构建方式
Histopathology Datasets for Machine Learning 数据集的构建方式主要通过收集和整理公开的病理学数据集,涵盖了多种器官和染色方法。这些数据集包括了从不同来源获取的图像和相关标注,如分割掩码、分类标签和注册点等。数据集的构建过程中,确保了数据的多样性和代表性,以支持机器学习任务如分类、分割、回归和注册等。此外,数据集还包含了详细的元数据,如图像的放大倍数、扫描设备信息等,以确保数据的可靠性和可重复性。
特点
该数据集的主要特点在于其广泛性和多样性。它涵盖了多个器官和多种染色方法,包括H&E染色和免疫组化(IHC)等,提供了丰富的病理学图像资源。数据集中的任务类型多样,包括分类、分割、回归和注册等,能够满足不同研究需求。此外,数据集还提供了详细的元数据,如图像的放大倍数和扫描设备信息,增强了数据的可解释性和实用性。
使用方法
使用Histopathology Datasets for Machine Learning数据集时,用户可以根据具体的研究需求选择合适的数据子集。数据集提供了详细的分类和标注信息,支持多种机器学习任务的训练和验证。用户可以通过访问数据集的GitHub页面获取数据链接和相关文献,确保数据的合法使用。在使用过程中,建议用户参考数据集的README文件,了解数据的结构和使用规范,以确保研究结果的准确性和可靠性。
背景与挑战
背景概述
组织病理学数据集在机器学习中的应用,特别是针对分类、分割、回归和/或配准任务,已成为生物医学图像分析领域的重要研究方向。这些数据集的创建和公开,为研究人员提供了丰富的资源,以推动病理学图像分析技术的发展。自2016年以来,多个机构和研究人员共同贡献了大量高质量的组织病理学图像数据集,涵盖了多种器官和染色方法,极大地促进了该领域的研究进展。这些数据集不仅支持基础研究,还在临床诊断和治疗中展现出潜在的应用价值。
当前挑战
尽管组织病理学数据集在机器学习中的应用取得了显著进展,但仍面临诸多挑战。首先,数据集的多样性和复杂性使得模型训练和验证变得复杂,不同器官和染色方法的差异增加了数据处理的难度。其次,数据集的标注质量和一致性问题,尤其是在多机构合作中,标注标准的不统一可能导致模型性能的波动。此外,大规模数据集的存储和处理需求对计算资源提出了高要求,如何在有限的资源下高效利用这些数据集是一个亟待解决的问题。最后,数据隐私和安全问题在生物医学数据处理中尤为重要,如何在确保数据安全的前提下进行有效的数据共享和研究是一个持续的挑战。
常用场景
经典使用场景
在病理学领域,Histopathology Datasets for Machine Learning数据集被广泛用于分类、分割、回归和/或配准任务。该数据集涵盖了多种器官和染色方法,为研究人员提供了丰富的病理图像资源。经典的使用场景包括利用这些图像进行肿瘤分类、细胞检测和组织分割,从而辅助病理学家进行更精确的诊断和治疗方案制定。
实际应用
在实际应用中,Histopathology Datasets for Machine Learning数据集被用于开发和验证病理图像分析工具。这些工具可以集成到医院的信息系统中,帮助病理学家快速分析大量病理图像,提高诊断效率。此外,该数据集还支持药物研发过程中的病理学评估,加速新药的临床试验进程。
衍生相关工作
基于Histopathology Datasets for Machine Learning数据集,许多经典工作得以展开。例如,研究人员开发了多种深度学习模型,用于肿瘤的自动分类和细胞核的精确分割。此外,该数据集还促进了跨学科的合作,如计算机视觉与病理学的结合,推动了医学图像分析技术的发展。这些工作不仅在学术界产生了深远影响,也在实际临床应用中展现了巨大潜力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作