five

PanNuke|医学图像分析数据集|细胞核分割数据集

收藏
huggingface2025-01-03 更新2025-01-04 收录
医学图像分析
细胞核分割
下载链接:
https://huggingface.co/datasets/RationAI/PanNuke
下载链接
链接失效反馈
资源简介:
PanNuke是一个半自动生成的细胞核实例分割和分类数据集,包含19种不同组织类型的详尽细胞核标签。数据集总共有189,744个标记的细胞核,每个细胞核都有一个实例分割掩码。数据集分为三个折叠(fold1, fold2, fold3),每个折叠包含图像、实例、类别和组织类型四个特征。图像为RGB格式,实例为二进制格式的细胞核实例,类别为细胞核的类别标签,组织类型为样本来源的组织类型标签。
创建时间:
2024-12-27
AI搜集汇总
数据集介绍
main_image_url
构建方式
PanNuke数据集的构建基于半自动化的方法,旨在为细胞核实例分割与分类提供详尽的注释。该数据集从全切片图像(WSIs)中提取了7,901张256×256像素的图像,每张图像均以x40放大倍率和0.25 µm/像素的分辨率捕获。数据集的标注涵盖了19种组织类型和5种细胞类别,共标记了189,744个细胞核实例。由于从全切片图像中提取图像块,部分位于图像边缘的细胞核可能被裁剪,导致某些实例的可见像素少于10个。
使用方法
PanNuke数据集的使用方法主要围绕细胞核实例分割与分类任务展开。数据集被划分为三个折叠(fold1、fold2、fold3),每个折叠包含图像、实例分割掩码、细胞类别标签和组织类型标签。研究人员可以通过加载这些折叠数据,训练和评估实例分割模型。由于数据集的高度不平衡性,建议在训练过程中采用适当的采样策略或损失函数调整,以提高模型对少数类别的识别能力。此外,数据集还可用于研究跨组织类型的泛化能力,以及探索不同组织类型对细胞核形态的影响。
背景与挑战
背景概述
PanNuke数据集由Jevgenij Gamper等人于2019年创建,旨在为癌症病理学中的细胞核实例分割与分类提供高质量的数据支持。该数据集涵盖了19种组织类型和5种不同的细胞类别,共包含189,744个标注的细胞核实例,图像分辨率为0.25 µm/像素。PanNuke的创建基于全切片图像(WSIs)的提取,其核心研究问题在于解决病理学图像中细胞核的精确分割与分类问题,为癌症诊断和治疗提供了重要的数据基础。该数据集在医学图像分析领域具有广泛的影响力,特别是在癌症病理学研究中,已成为评估算法性能的重要基准之一。
当前挑战
PanNuke数据集在构建和应用过程中面临多重挑战。首先,数据集的高度不平衡性,尤其是‘Dead’细胞类别的样本数量显著不足,可能导致模型在分类任务中表现不佳。其次,由于图像是从全切片图像中提取的,部分细胞核位于图像边缘,导致其被裁剪,仅保留少量可见像素,这增加了实例分割的难度。此外,数据集的多类别和多组织类型特性要求模型具备较强的泛化能力,以应对不同组织背景下的细胞核识别与分类问题。这些挑战不仅影响了数据集的构建质量,也对后续的算法开发提出了更高的要求。
常用场景
经典使用场景
PanNuke数据集在医学图像分析领域具有广泛的应用,尤其是在细胞核实例分割和分类任务中表现突出。该数据集包含了来自19种不同组织类型的7,901张图像,涵盖了5种细胞类别,为研究人员提供了一个多样化的实验平台。通过使用这些高分辨率的图像,研究人员可以训练和验证深度学习模型,以精确地识别和分割细胞核,从而为癌症诊断和治疗提供有力支持。
解决学术问题
PanNuke数据集解决了医学图像分析中的多个关键问题,特别是在细胞核实例分割和分类方面。由于细胞核的形态和分布在不同组织类型中存在显著差异,传统的图像处理方法往往难以应对这种复杂性。PanNuke通过提供大量标注数据,帮助研究人员开发出更加精确的算法,从而提高了细胞核识别的准确性和鲁棒性。此外,该数据集还为研究细胞核在不同病理状态下的变化提供了宝贵的数据支持。
实际应用
在实际应用中,PanNuke数据集被广泛用于开发自动化病理诊断系统。通过利用该数据集训练深度学习模型,医疗机构可以实现对病理切片的快速分析,从而加速癌症的诊断过程。此外,该数据集还可用于研究不同组织类型中细胞核的分布和形态特征,为个性化医疗方案的制定提供科学依据。
数据集最近研究
最新研究方向
PanNuke数据集作为癌症病理学领域的重要资源,近年来在细胞核实例分割与分类研究中发挥了关键作用。随着深度学习技术的快速发展,研究者们正致力于利用该数据集开发更为精确的自动化细胞核分割算法,以应对病理图像中细胞核形态多样性和组织复杂性带来的挑战。特别是在多类别细胞核分类任务中,如何有效处理数据不平衡问题成为研究热点。此外,结合PanNuke数据集的多组织类型特性,研究者们正在探索跨组织泛化能力的提升,以增强模型在不同癌症类型间的适应性和鲁棒性。这些研究不仅推动了数字病理学的发展,也为癌症诊断和治疗提供了更可靠的辅助工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

UIEB, U45, LSUI

本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。

github 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录