five

CryoNuSeg|细胞核实例分割数据集|冷冻组织样本数据集

收藏
arXiv2021-01-02 更新2024-07-30 收录
细胞核实例分割
冷冻组织样本
下载链接:
https://github.com/masih4/CryoNuSeg
下载链接
链接失效反馈
资源简介:
CryoNuSeg是第一个完全注释的来自冷冻组织样本的冷冻切片和H&E染色的细胞核实例分割数据集。该数据集包含来自10个人体器官的图像,这些图像在其他公开可用的数据集中未被利用,并提供了三种手动标记,以允许测量观察者内部和观察者之间的变异性。
创建时间:
2021-01-02
原始信息汇总

CryoNuSeg: A Dataset for Nuclei Segmentation of Cryosectioned H&E-Stained Histological Images

数据集概述

CryoNuSeg 是一个完全标注的冷冻 H&E 染色的组织学图像数据集。该数据集包含 30 张固定大小为 512x512 像素的图像块,来自 10 个人体器官。数据集主要来源于 The Cancer Genome Atlas (TCGA)。

引用

CryoNuSeg 的论文已公开发布在 ScienceDirect 上:

@article{CryoNuSeg2021, title = "{CryoNuSeg}: A dataset for nuclei instance segmentation of cryosectioned H&E-stained histological images", journal = "Computers in Biology and Medicine", volume = "132", pages = "104349", year = "2021", issn = "0010-4825", doi = "https://doi.org/10.1016/j.compbiomed.2021.104349", url = "https://www.sciencedirect.com/science/article/pii/S0010482521001438", author = "Amirreza Mahbod and Gerald Schaefer and Benjamin Bancher and Christine L"{o}w and Georg Dorffner and Rupert Ecker and Isabella Ellinger" }

数据集链接

完整的数据集及其对应的分割掩码可在 Kaggle 网站上获取: https://www.kaggle.com/ipateam/segmentation-of-nuclei-in-cryosectioned-he-images

WSI 选择

从 TCGA 数据库中提取图像块的步骤如下:

  • 选择 10 个未广泛用于其他公开数据集的器官,包括肾上腺、喉、淋巴结、纵隔、胰腺、胸膜、皮肤、睾丸、胸腺和甲状腺。
  • 每个器官选择 3 张 40 倍放大的 WSI。

WSI 图像块提取

使用 QuPath 软件提取固定大小为 512x512 像素的图像块。

手动标注

使用 ImageJ 软件进行手动核实例分割标注。

分割掩码生成代码

Matlab 代码用于生成分割掩码,可在代码文件夹中找到。

致谢

本工作得到了奥地利研究促进机构 (FFG) 和 Kaggle 开放数据研究资助的支持。

AI搜集汇总
数据集介绍
main_image_url
构建方式
CryoNuSeg数据集的构建基于冷冻切片(FS)的H&E染色组织图像,旨在为核实例分割提供高质量的标注数据。数据集的图像来源于10种不同的人类器官,这些器官在其他公开数据集中未被广泛使用。通过从The Cancer Genome Atlas (TCGA)中筛选出40倍放大的H&E染色图像,研究人员选择了30张全切片图像(WSIs),每张图像提取了512×512像素的固定大小图像块。核实例分割标注由两名专家手动完成,并通过ImageJ工具进行核边界标注,确保了标注的精确性。此外,数据集还提供了三种手动标注版本,以便研究观察者内和观察者间的变异性。
特点
CryoNuSeg数据集是首个完全基于冷冻切片H&E染色图像的核实例分割数据集,具有独特的特点。首先,数据集涵盖了10种不同的人类器官,提供了丰富的组织类型和形态学多样性。其次,数据集不仅包含核实例分割的标注,还提供了辅助分割掩码,如去除接触边界的二值掩码、距离图和加权图,这些辅助数据有助于提升深度学习模型的训练效果。此外,数据集还通过两名专家的标注,提供了观察者内和观察者间变异性的研究基础,为核分割算法的鲁棒性评估提供了重要参考。
使用方法
CryoNuSeg数据集的使用方法主要围绕核实例分割算法的训练与评估展开。研究人员可以利用数据集中的标注图像训练深度学习模型,并通过辅助分割掩码提升模型的性能。数据集还提供了基线分割基准,使用基于U-Net的分割算法进行核实例分割,并通过Dice分数、聚合Jaccard指数(AJI)和全景质量(PQ)分数等指标进行评估。此外,数据集支持10折交叉验证(10CV),每折使用9个器官的图像进行训练,剩余1个器官的图像用于测试,从而评估模型的泛化能力。数据集的所有标注和辅助数据均可在GitHub和Kaggle平台上获取,便于研究人员直接使用和扩展。
背景与挑战
背景概述
CryoNuSeg数据集是首个基于冷冻切片(FS)和苏木精-伊红(H&E)染色图像的全手动标注的细胞核实例分割数据集,由维也纳医科大学等机构的研究团队于2021年发布。该数据集旨在解决冷冻切片图像中细胞核分割的挑战,特别是在术中快速诊断中的应用。冷冻切片因其快速制备的特点,常用于肿瘤手术中的实时病理分析,但其图像质量常因快速处理而受到影响。CryoNuSeg包含来自10个人体器官的图像,填补了现有数据集中冷冻切片数据的空白,并为深度学习模型的训练和评估提供了高质量的标注数据。该数据集的发布推动了数字病理学和计算病理学领域的研究,尤其是在冷冻切片图像分析中的应用。
当前挑战
CryoNuSeg数据集面临的挑战主要包括两个方面。首先,冷冻切片图像的快速制备和染色过程可能导致图像质量下降,如核染色质凝聚或冰晶形成等伪影,这些因素不仅影响病理学家的视觉判读,还可能显著降低基于深度学习的细胞核分割算法的性能。其次,数据集的构建过程中,手动标注细胞核边界存在较高的观察者间和观察者内变异性,尤其是在处理重叠或接触的细胞核时,标注的一致性难以保证。此外,冷冻切片与常规福尔马林固定石蜡包埋(FFPE)切片在细胞核形态上的差异,也增加了模型训练的复杂性。这些挑战要求研究者开发更鲁棒的算法,以应对冷冻切片图像中的噪声和变异性。
常用场景
经典使用场景
CryoNuSeg数据集在医学图像分析领域中被广泛用于冷冻切片H&E染色图像中的细胞核实例分割。该数据集通过提供来自10种不同人体器官的图像,为研究人员提供了一个标准化的基准,用于开发和评估深度学习模型在细胞核分割任务中的性能。特别是在冷冻切片图像中,由于快速制备和染色过程可能导致图像质量下降,CryoNuSeg数据集为处理这些挑战提供了宝贵的资源。
解决学术问题
CryoNuSeg数据集解决了冷冻切片H&E染色图像中细胞核实例分割的标注数据稀缺问题。通过提供完全手动标注的图像,该数据集使得研究人员能够训练和评估深度学习模型,尤其是在冷冻切片图像中,这些图像通常因快速制备过程而具有较低的质量。此外,该数据集还允许研究不同组织固定/包埋协议(如冷冻切片与福尔马林固定石蜡包埋切片)对细胞核分割性能的影响,填补了这一领域的研究空白。
衍生相关工作
CryoNuSeg数据集的发布推动了多个相关研究工作的开展。例如,基于该数据集的研究进一步探索了不同组织固定/包埋协议对细胞核分割性能的影响,并提出了改进的深度学习模型。此外,CryoNuSeg数据集还被用于开发新的细胞核分割算法,如基于U-Net的改进模型,这些模型在冷冻切片图像中表现出色。该数据集还为其他医学图像分析任务(如肿瘤分割和全切片图像分类)提供了基础数据支持,推动了冷冻切片图像分析领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录