five

PanNuke|医学图像分析数据集|细胞核分割数据集

收藏
huggingface2025-01-03 更新2025-01-04 收录
医学图像分析
细胞核分割
下载链接:
https://huggingface.co/datasets/RationAI/PanNuke
下载链接
链接失效反馈
资源简介:
PanNuke是一个半自动生成的细胞核实例分割和分类数据集,包含19种不同组织类型的详尽细胞核标签。数据集总共有189,744个标记的细胞核,每个细胞核都有一个实例分割掩码。数据集分为三个折叠(fold1, fold2, fold3),每个折叠包含图像、实例、类别和组织类型四个特征。图像为RGB格式,实例为二进制格式的细胞核实例,类别为细胞核的类别标签,组织类型为样本来源的组织类型标签。
创建时间:
2024-12-27
AI搜集汇总
数据集介绍
main_image_url
构建方式
PanNuke数据集的构建基于半自动化的方法,旨在为细胞核实例分割与分类提供详尽的注释。该数据集从全切片图像(WSIs)中提取了7,901张256×256像素的图像,每张图像均以x40放大倍率和0.25 µm/像素的分辨率捕获。数据集的标注涵盖了19种组织类型和5种细胞类别,共标记了189,744个细胞核实例。由于从全切片图像中提取图像块,部分位于图像边缘的细胞核可能被裁剪,导致某些实例的可见像素少于10个。
使用方法
PanNuke数据集的使用方法主要围绕细胞核实例分割与分类任务展开。数据集被划分为三个折叠(fold1、fold2、fold3),每个折叠包含图像、实例分割掩码、细胞类别标签和组织类型标签。研究人员可以通过加载这些折叠数据,训练和评估实例分割模型。由于数据集的高度不平衡性,建议在训练过程中采用适当的采样策略或损失函数调整,以提高模型对少数类别的识别能力。此外,数据集还可用于研究跨组织类型的泛化能力,以及探索不同组织类型对细胞核形态的影响。
背景与挑战
背景概述
PanNuke数据集由Jevgenij Gamper等人于2019年创建,旨在为癌症病理学中的细胞核实例分割与分类提供高质量的数据支持。该数据集涵盖了19种组织类型和5种不同的细胞类别,共包含189,744个标注的细胞核实例,图像分辨率为0.25 µm/像素。PanNuke的创建基于全切片图像(WSIs)的提取,其核心研究问题在于解决病理学图像中细胞核的精确分割与分类问题,为癌症诊断和治疗提供了重要的数据基础。该数据集在医学图像分析领域具有广泛的影响力,特别是在癌症病理学研究中,已成为评估算法性能的重要基准之一。
当前挑战
PanNuke数据集在构建和应用过程中面临多重挑战。首先,数据集的高度不平衡性,尤其是‘Dead’细胞类别的样本数量显著不足,可能导致模型在分类任务中表现不佳。其次,由于图像是从全切片图像中提取的,部分细胞核位于图像边缘,导致其被裁剪,仅保留少量可见像素,这增加了实例分割的难度。此外,数据集的多类别和多组织类型特性要求模型具备较强的泛化能力,以应对不同组织背景下的细胞核识别与分类问题。这些挑战不仅影响了数据集的构建质量,也对后续的算法开发提出了更高的要求。
常用场景
经典使用场景
PanNuke数据集在医学图像分析领域具有广泛的应用,尤其是在细胞核实例分割和分类任务中表现突出。该数据集包含了来自19种不同组织类型的7,901张图像,涵盖了5种细胞类别,为研究人员提供了一个多样化的实验平台。通过使用这些高分辨率的图像,研究人员可以训练和验证深度学习模型,以精确地识别和分割细胞核,从而为癌症诊断和治疗提供有力支持。
解决学术问题
PanNuke数据集解决了医学图像分析中的多个关键问题,特别是在细胞核实例分割和分类方面。由于细胞核的形态和分布在不同组织类型中存在显著差异,传统的图像处理方法往往难以应对这种复杂性。PanNuke通过提供大量标注数据,帮助研究人员开发出更加精确的算法,从而提高了细胞核识别的准确性和鲁棒性。此外,该数据集还为研究细胞核在不同病理状态下的变化提供了宝贵的数据支持。
实际应用
在实际应用中,PanNuke数据集被广泛用于开发自动化病理诊断系统。通过利用该数据集训练深度学习模型,医疗机构可以实现对病理切片的快速分析,从而加速癌症的诊断过程。此外,该数据集还可用于研究不同组织类型中细胞核的分布和形态特征,为个性化医疗方案的制定提供科学依据。
数据集最近研究
最新研究方向
PanNuke数据集作为癌症病理学领域的重要资源,近年来在细胞核实例分割与分类研究中发挥了关键作用。随着深度学习技术的快速发展,研究者们正致力于利用该数据集开发更为精确的自动化细胞核分割算法,以应对病理图像中细胞核形态多样性和组织复杂性带来的挑战。特别是在多类别细胞核分类任务中,如何有效处理数据不平衡问题成为研究热点。此外,结合PanNuke数据集的多组织类型特性,研究者们正在探索跨组织泛化能力的提升,以增强模型在不同癌症类型间的适应性和鲁棒性。这些研究不仅推动了数字病理学的发展,也为癌症诊断和治疗提供了更可靠的辅助工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

BTCV

BTCV(Beyond the Cranial Vault)数据集是一个用于医学图像分割的公开数据集,主要包含30个病例的CT扫描图像,涵盖了13个不同的器官和组织。该数据集旨在促进医学图像分割算法的发展和评估。

www.synapse.org 收录

PKLot

PKLot数据集包含12,416张从监控摄像头帧中提取的停车场图像。这些图像包括不同天气条件下的变化,如晴天、阴天和雨天。每个停车位都被标记为占用或空置。原始数据集的注释已转换为标准的目标检测格式,使用边界框包围旋转的矩形。

github 收录

NASA Battery Dataset

用于预测电池健康状态的数据集,由NASA提供。

github 收录