AutoKary2022

Name: AutoKary2022
Creator: 杭州城市大学
Published: 2023-04-25 19:47:31
License: 暂无描述

arXiv2023-04-25 更新2024-06-21 收录

下载链接：

https://github.com/wangjuncongyu/chromosome-instance-segmentation-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

AutoKary2022是由杭州城市大学创建的大规模密集标注数据集，专注于染色体实例分割。该数据集包含来自50名患者的612张显微镜图像，总计超过27,000个染色体实例。每个实例均通过多边形掩码和类别标签进行精确标注，以支持染色体检测和分割任务。数据集的创建旨在解决染色体形态复杂性带来的挑战，如密集分布、任意方向和广泛长度范围。AutoKary2022的应用领域包括医学诊断中的染色体异常分析，旨在提高自动化染色体分析的准确性和效率。

AutoKary2022 is a large-scale densely annotated dataset created by Hangzhou City University, focusing on chromosome instance segmentation. This dataset includes 612 microscopic images from 50 patients, with a total of over 27,000 chromosome instances. Each instance is precisely annotated with polygon masks and category labels to support chromosome detection and segmentation tasks. The dataset was developed to address challenges brought by the complexity of chromosome morphology, such as dense distribution, arbitrary orientations and wide range of lengths. The application scenarios of AutoKary2022 cover chromosome abnormality analysis in medical diagnostics, aiming to improve the accuracy and efficiency of automated chromosome analysis.

提供机构：

杭州城市大学

创建时间：

2023-03-28

搜集汇总

数据集介绍

构建方式

AutoKary2022数据集的构建过程始于与医院的合作，收集了来自50名患者的612张中期细胞显微图像。使用G显带技术，确保每条染色体具有相对恒定的显带特征，从而可以精确识别染色体并发现染色体上的细微结构异常。利用labelme工具对数据集进行标注，每张图像分辨率为3200×2200，包含完整的23对染色体。每个图像中的染色体实例都有相应的标注文件，包括边界框和染色体类别。数据集分为训练集和测试集，保证了数据集的真实性和高质量。

特点

AutoKary2022数据集具有几个吸引人的特性，包括真实性、高质量和可扩展性。数据集保留了背景和细胞残留物，染色体分布符合原始形态。标注过程经过验证，确保数据集的高准确性。此外，数据集是可扩展的，不仅可用于分割，还可用于染色体目标检测和实例分类。

使用方法

AutoKary2022数据集可用于训练染色体实例分割模型和染色体分类模型。数据集分为训练集和测试集，方便模型训练和性能评估。使用Mask R-CNN及其四个最先进的变体进行训练，包括Cascade R-CNN、SCNet、HTC和MS R-CNN。采用平均平均精度（mAP）、平均全景质量（mPQ）和聚合Jaccard指数（AJI）来评估染色体实例分割性能。

背景与挑战

背景概述

染色体分析是遗传学研究和临床诊断中的一项重要工作，其中核型分析是检测和诊断染色体异常的常规程序。传统的核型分析依赖于经验丰富的技术人员手动从中期细胞图像中计数、提取和分类染色体实例，这一过程耗时且劳动密集。为了提高效率和降低成本，自动化核型分析成为一个迫切需求。AutoKary2022数据集应运而生，该数据集由来自50名患者的612张显微镜图像组成，包含超过27,000个染色体实例。每个实例都被标注了多边形掩码和类标签，以帮助精确地检测和分割染色体。AutoKary2022数据集的创建不仅为医学理解提供了高质量的密集标注数据，而且为染色体实例分割领域的研究提供了宝贵的资源。

当前挑战

尽管AutoKary2022数据集为染色体实例分割研究提供了宝贵的资源，但该领域仍面临一些挑战。首先，染色体具有密集分布、任意方向、长度范围广、弯曲和细长的复杂形态，这使得现有的分割方法难以应对。其次，现有的染色体数据集要么包含许多合成样本中染色体接触的叠加情况，要么未公开，这使得基于统一标准定量分析不同分割方法的性能变得不可行。此外，现有的深度学习方法主要针对自然图像开发，而染色体图像与自然图像之间存在较大差异，导致现有方法的性能可能受到限制。最后，训练深度学习模型需要大规模的标记分割数据集，而染色体实例分割领域目前缺乏此类数据集。AutoKary2022数据集的创建旨在解决这些挑战，但其性能和实用性仍需进一步研究和评估。

常用场景

经典使用场景

AutoKary2022数据集主要被用于医学图像分析领域，特别是针对中期细胞显微图像中的染色体实例分割任务。该数据集包含了来自50位患者的612张显微图像，以及超过27,000个染色体实例的密集标注。每个实例都被标注了多边形掩码和类标签，以辅助精确的染色体检测和分割。AutoKary2022数据集为研究者提供了一个大规模、高质量、密集标注的染色体分割数据集，有助于推动染色体分割技术的发展，提高染色体异常检测的准确性和效率。

衍生相关工作

AutoKary2022数据集的发布推动了染色体分割技术的研究和发展。基于该数据集，研究者们可以评估和比较不同的分割算法，从而推动算法的改进和创新。此外，AutoKary2022数据集还可以用于开发新的染色体分析工具，如染色体分类、染色体异常检测等，从而推动染色体分析技术的发展和应用。

数据集最近研究