five

NuInsSeg|医学图像分析数据集|细胞核分割数据集

收藏
arXiv2023-08-03 更新2024-06-21 收录
医学图像分析
细胞核分割
下载链接:
https://www.kaggle.com/datasets/ipateam/nuinsseg
下载链接
链接失效反馈
资源简介:
NuInsSeg是由医学图像分析与人工智能研究中心和维也纳医科大学病理生理学与过敏研究所共同创建的大型全注释数据集,专注于H&E染色的组织图像中的细胞核实例分割。该数据集包含665个图像补丁,超过30,000个手动分割的细胞核,来自31个人类和鼠类器官。此外,首次提供了整个数据集的模糊区域掩码,这些区域代表了图像中精确和确定性手动注释不可能的部分。NuInsSeg数据集旨在通过提供高质量的训练数据,推动深度学习模型在医学图像分析中的应用,特别是在细胞核分割任务中,以提高疾病诊断的准确性和效率。
提供机构:
医学图像分析与人工智能研究中心
创建时间:
2023-08-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
NuInsSeg数据集的构建过程涉及对来自31个人类和鼠标器官的H&E染色组织切片进行全手动标注。研究人员首先从这些切片中提取了665个512×512像素的图像块,并使用ImageJ软件对每个图像块中的所有细胞核进行逐个分割。为了确保标注的准确性,三名细胞生物学背景的学生进行了标注工作,并由一名资深细胞生物学家进行了审核和校正。此外,研究人员还标注了图像中的模糊区域,这些区域代表即使对于人类专家来说也无法进行精确标注的部分。
特点
NuInsSeg数据集的主要特点是其全面性,包含了来自31个不同器官的665个图像块,共计超过30,000个手动分割的细胞核。该数据集不仅提供了原始图像和分割掩膜,还包括了辅助分割掩膜,如去边界的二值掩膜、细胞核解释距离图和加权二值掩膜。此外,NuInsSeg数据集还首次提供了整个数据集的模糊区域掩膜,这对于评估自动分割模型的性能非常有用。
使用方法
NuInsSeg数据集及其相关代码和文档可在Kaggle和GitHub上公开获取。研究人员可以直接在Kaggle平台上使用该数据集进行核实例分割算法的开发、验证和测试。此外,数据集也可以作为独立测试集,用于评估已开发的分割模型的一般化能力。数据集的使用不需要特定的软件或工具,用户可以使用自己的计算资源进行分析。
背景与挑战
背景概述
在计算病理学领域,细胞核实例分割在整体切片图像分析中扮演着关键角色。NuInsSeg数据集的创建,旨在为这一任务提供一个全面的手动标注数据集,以促进深度学习模型在细胞核分割任务上的性能提升。该数据集由奥地利维也纳医科大学的研究团队于2023年8月发布,包含了665个图像块,超过30,000个手动分割的细胞核,涵盖了31个人类和小鼠器官。此外,该数据集还首次提供了整个数据集的模糊区域掩码,这些区域代表了即使是人类专家也无法进行精确和确定性手动标注的图像部分。NuInsSeg数据集的发布对于医学图像分析领域具有重要意义,为研究人员提供了一个宝贵的资源,以开发和评估细胞核实例分割的算法。
当前挑战
尽管NuInsSeg数据集为细胞核实例分割提供了丰富的资源,但其构建和应用仍然面临一些挑战。首先,细胞核分割的领域问题在于如何精确地分割细胞核,特别是在组织切片图像中,细胞核的形态和大小差异较大,且可能存在重叠和模糊区域。其次,构建过程中遇到的挑战包括如何确保手动标注的准确性和一致性,以及如何处理图像中的模糊区域。此外,随着数据集的规模不断扩大,如何高效地管理和处理这些数据也成为一个挑战。
常用场景
经典使用场景
在计算病理学领域,自动核实例分割在整体切片图像分析中发挥着关键作用。NuInsSeg数据集,一个包含665个图像块和超过30,000个手动分割核的完整注释数据集,为这一任务提供了宝贵的资源。该数据集在H&E染色组织学图像中应用广泛,尤其在核密度、核质比等核特征的统计分析方面具有重要价值。此外,NuInsSeg还提供了模糊区域掩码,这些区域即使在人类专家眼中也无法进行精确和确定的注释,对于深入分析和评估任何自动核实例分割模型非常有帮助。
衍生相关工作
基于NuInsSeg数据集,研究人员已经开发了一系列基于深度学习的核实例分割模型,例如Mask R-CNN及其变体、基于距离的方法和多编码器-解码器方法。这些模型在NuInsSeg数据集上取得了优异的分割性能,为核实例分割技术的发展提供了新的思路和方法。此外,NuInsSeg数据集的模糊区域掩码也为自动模型的分析和评估提供了新的可能性,有助于推动核实例分割技术的发展。
数据集最近研究
最新研究方向
NuInsSeg数据集在计算病理学领域的前沿研究方向主要集中在核实例分割的自动化和精确度上。该数据集的发布为研究人员提供了一个包含大量手动标注核实例的H&E染色组织图像数据集,有助于推动深度学习方法在核实例分割任务上的应用。此外,NuInsSeg数据集还提供了模糊区域掩码,这对于评估自动分割模型的性能和可靠性具有重要意义。未来研究可以进一步探索如何利用这一数据集,开发出更加精确和自动化的核实例分割算法,以辅助病理学家进行组织分析和癌症诊断。
相关研究论文
  • 1
    NuInsSeg: A Fully Annotated Dataset for Nuclei Instance Segmentation in H&E-Stained Histological Images医学图像分析与人工智能研究中心 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Natural Scene Braille Character Recognition Dataset

There are a total of 1157 Braille segment images in this dataset, including 925 in the training set and 232 in the testing set. There are two folders in the directory of this dataset: character_label and segment_label. The character_rabel file contains three formats of Braille segment images: (1) Braille segment images and label files stored in ICDAR-2015 format, each. jpg file corresponds to a. txt file, where each line stores the position and recognition label of a braille character rectangle box. The data corresponds to the coordinates of the four points in the rectangle box and the recognized numerical label; (2) The original format of the data is stored in the folder org. Each .jpg file in this folder corresponds to a .json file which marked by labelme software; (3) VOC format, stored in voc-data folder. This folder stores images and corresponding .xml files in VOC format, and marks the position of each braille character rectangle box and its corresponding numerical label information in the .xml file. In addition, the original Braille images of natural scenes and the corresponding Braille segment markings .json files are stored in the folder segment_label.

DataCite Commons 收录

CT-ORG

3D CT, 140 Cases, 6 Categories of Organ Segmentation.

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录