UMID-Urine-Microscopic-Image-Dataset

Name: UMID-Urine-Microscopic-Image-Dataset
Creator: 印度比拉科技与科学学院
Published: 2021-11-19 21:11:04
License: 暂无描述

arXiv2021-11-19 更新2024-06-21 收录

下载链接：

https://github.com/dipamgoswami/UMID-Urine-Microscopic-Image-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

UMID-Urine-Microscopic-Image-Dataset是由印度比拉科技与科学学院创建的，旨在通过自动化技术辅助诊断泌尿系统疾病。该数据集包含约3700个细胞标注，涵盖红细胞、脓细胞和上皮细胞三种类别。数据集的创建过程中，由医学专业人员监督并进行交叉验证，确保数据质量。UMID数据集的应用领域主要集中在通过深度学习算法自动检测和分类尿沉渣细胞，以支持医疗中心，特别是在缺乏熟练实验室技术人员的农村地区。

The UMID-Urine-Microscopic-Image-Dataset was developed by Birla Institute of Technology and Science, Pilani (BITS Pilani) in India, with the objective of assisting in the automated diagnosis of urinary system diseases via automated technologies. This dataset contains approximately 3700 annotated cells, covering three categories: red blood cells, pus cells, and epithelial cells. During its construction, the dataset was supervised and cross-validated by medical professionals to ensure data quality. The main application scenarios of the UMID dataset focus on automatically detecting and classifying urinary sediment cells using deep learning algorithms, so as to provide support for medical institutions, especially rural areas that lack skilled laboratory technicians.

提供机构：

印度比拉科技与科学学院

创建时间：

2021-11-19

搜集汇总

数据集介绍

构建方式

在尿液分析领域，自动化检测技术正逐步成为提升诊断效率的关键。UMID数据集的构建过程体现了临床实践与科研需求的紧密结合。该数据集源自医院常规诊断过程中采集的尿液显微图像，由医师在患者诊断期间遵循标准流程收集。图像采集使用两台明场显微镜，其中一台设备较为陈旧，导致部分图像存在半圆形环状伪影，这反映了实际医疗环境中设备维护的局限性。所有图像均以1280×720分辨率获取，通过连接500万像素显微镜相机实现数字化。数据标注由包括医师在内的三名研究者共同完成，采用Microsoft VoTT软件，并创新性地引入了点标注策略处理细胞簇，以及设立“遗漏标签”类别以容纳难以清晰归类的细胞。最终数据集包含366张图像及约3700个细胞标注，涵盖红细胞、脓细胞和上皮细胞三类。

特点

UMID数据集的特点在于其高度贴近临床实际场景的复杂性与多样性。图像质量呈现显著异质性，部分样本存在模糊、伪影或低对比度问题，这源于显微镜设备差异、尿液样本多层结构导致的离焦现象以及医师在时间压力下快速采集的操作习惯。数据标注体系设计精巧，不仅包含标准边界框标注，还针对密集细胞簇开发了点标注方法，大幅提升了标注效率与一致性。此外，数据集专门设置了“遗漏标签”类别，收录了那些因模糊或重叠而难以明确分类的细胞实例，为模型训练提供了更真实的噪声环境。类别分布方面，红细胞约占44%，脓细胞33%，上皮细胞23%，虽存在一定不平衡，但整体覆盖了尿液常规检测的核心细胞类型。

使用方法

该数据集主要应用于尿液沉淀细胞的自动检测与分类研究，尤其适用于开发在非理想成像条件下仍具鲁棒性的深度学习模型。研究者可将数据集按细胞标注数量划分为训练集（约76%）、验证集（10%）和测试集（14%）。训练时需注意区分标注类型：对于独立细胞采用边界框监督，对于细胞簇则利用点标注生成伪边界框进行训练。测试集与验证集中所有细胞均以边界框标注，以便准确评估模型性能。使用时应排除“遗漏标签”类别的样本参与训练，但可保留作为模型泛化能力的挑战性测试案例。数据集支持的目标包括红细胞、脓细胞和上皮细胞的识别与计数，可用于尿路感染、肾脏疾病等病症的辅助诊断算法开发。

背景与挑战

背景概述

尿液分析作为诊断泌尿系统疾病的标准检测手段，其自动化进程对提升诊断效率具有关键意义。UMID尿液显微图像数据集由印度比拉理工学院等机构的研究人员于2021年创建，旨在解决尿液显微图像领域公开数据匮乏的瓶颈。该数据集聚焦于红细胞、脓细胞和上皮细胞三类核心尿液沉淀物的检测与分类，共包含约3700个细胞标注。作为首个公开的尿液显微图像数据集，UMID为深度学习算法在尿液细胞自动识别领域的研究提供了重要基础，尤其有助于推动医疗资源匮乏地区的自动化诊断技术发展。

当前挑战

UMID数据集所应对的核心领域挑战在于尿液沉淀细胞的精确检测与分类，这直接关系到泌尿系统疾病的诊断准确性。具体而言，细胞尺寸微小、形态多样且常呈现密集聚集状态，导致传统图像处理方法难以实现可靠分割。在数据集构建过程中，研究人员面临多重困难：图像采集受限于临床实际条件，显微镜设备老化导致环形伪影与模糊现象频发；尿液样本的多层结构使细胞处于不同焦平面，产生不规则离焦效应；此外，细胞重叠与低对比度特性使标注工作极易产生歧义，为此团队创新性地引入了遗漏标注类别与簇内点标注策略以应对标注一致性难题。

常用场景

经典使用场景

在临床医学与生物医学工程领域，尿液显微图像分析是诊断泌尿系统疾病的关键环节。UMID数据集作为首个公开的尿液沉淀显微图像资源，其经典应用场景集中于训练和验证深度学习模型，以实现对红细胞、脓细胞和上皮细胞的自动分类与检测。该数据集通过提供约3700个细胞标注，支持研究者开发高效算法，模拟实验室环境下对尿液样本的显微观察，从而推动尿液分析自动化的研究进程。

衍生相关工作

UMID数据集的发布催生了多项尿液显微图像分析的衍生研究。例如，基于该数据集的深度学习框架被用于改进细胞簇的实例分割，解决传统方法中细胞重叠检测的难题。相关研究进一步探索了多类别细胞分类、模糊图像增强以及半监督学习策略，以提升模型在复杂场景下的泛化能力。这些工作不仅扩展了尿液沉淀分析的算法边界，还为其他医学显微图像数据集（如血液或组织切片）的处理提供了方法论参考，推动了整个医学人工智能领域的发展。

数据集最近研究