MultiOrg|生物医学图像分析数据集|器官检测数据集

arXiv2024-10-19 更新2024-10-22 收录

下载链接：

https://www.kaggle.com/datasets/christinabukas/mutliorg

下载链接

链接失效反馈

资源简介：

MultiOrg数据集是由亥姆霍兹慕尼黑计算健康中心创建的一个用于器官检测任务的多评测者数据集，包含超过400张高分辨率的2D显微镜图像和超过60,000个器官的注释。数据集内容涵盖了从不同生物研究设置中获得的肺器官图像，具有两种类型的器官在不同条件下生长。数据集的创建过程包括图像采集、分割、拼接和注释，由两位专家在不同时间点独立注释，形成三个标签集。该数据集主要应用于生物医学图像分析领域，旨在解决器官检测中的不确定性量化问题，推动深度学习模型在器官检测中的应用。

提供机构：

亥姆霍兹慕尼黑计算健康中心

创建时间：

2024-10-19

AI搜集汇总

数据集介绍

构建方式

MultiOrg数据集的构建基于超过400张高分辨率的2D显微镜图像，这些图像涵盖了从不同生物学研究设置中获得的肺类器官。数据集的标注过程由两位专家在不同时间点独立完成，确保了标注的不确定性得以量化。具体而言，数据集包括了超过60,000个类器官的标注，其中测试数据集包含了三个独立的标注集，分别由两位专家在不同时间点进行标注。这种多标注者的设计使得数据集能够用于评估标注噪声对模型训练的影响，并推动不确定性量化研究的发展。

特点

MultiOrg数据集的主要特点在于其多标注者设计和标注不确定性的量化。通过引入三位专家在不同时间点的标注，数据集能够提供对标注一致性和差异性的深入分析。此外，数据集的高分辨率图像和多样化的生物学研究设置确保了其在真实世界复杂性中的代表性。这些特点使得MultiOrg不仅适用于对象检测任务的基准测试，还能够推动生物医学图像分析领域中不确定性量化方法的研究。

使用方法

MultiOrg数据集的使用方法包括训练和测试对象检测模型，以及评估这些模型在不同标注集上的性能。研究者可以通过使用数据集中的训练集来训练模型，并利用测试集中的多个标注集来验证模型的鲁棒性和对标注噪声的敏感性。此外，数据集还附带了一个基准测试工具，该工具基于流行的图像可视化工具Napari，允许用户在量化类器官之前进行可视化和校正。这种交互式的工具设计使得高吞吐量的图像分析成为可能，从而加速了生物学研究的进程。

背景与挑战

背景概述

MultiOrg数据集由Helmholtz Munich和Philipps-University Marburg的研究团队创建，专注于生物医学领域的高通量图像分析。该数据集于2024年发布，包含超过400张高分辨率的2D显微镜图像，涵盖了超过60,000个肺类器官的注释。其核心研究问题在于自动化类器官的量化，以克服高通量图像分析中的手动量化瓶颈。MultiOrg不仅提供了丰富的图像数据，还引入了多标签集，允许对注释不确定性进行量化，从而推动了不确定性量化研究的发展，并对生物医学图像分析领域产生了深远影响。

当前挑战

MultiOrg数据集面临的挑战主要集中在两个方面：一是解决生物医学图像分析中对象检测的复杂性，包括类器官在显微镜图像中的重叠结构、尺寸和形状的多样性，以及区分类器官与培养基中的灰尘和碎屑；二是构建过程中遇到的注释不确定性问题，由于人类专家的主观性和疲劳导致的注释误差和偏差，引入了标签噪声。此外，该数据集还需应对缺乏开放生物医学数据集的现状，以及在对象检测任务中量化注释不确定性的需求。

常用场景

经典使用场景

MultiOrg数据集在生物医学图像分析领域具有经典应用场景，主要用于自动化组织体检测任务。通过提供超过400张高分辨率2D显微镜图像和超过60,000个组织体的手工标注，该数据集支持开发和评估对象检测算法。其独特之处在于包含了由两位专家在不同时间点独立标注的三组标签，这使得研究人员能够量化标签的不确定性，从而在标签噪声感知的环境中进行算法基准测试。

衍生相关工作

MultiOrg数据集的发布催生了一系列相关研究工作，特别是在组织体检测和不确定性量化领域。例如，Kassis等人提出的OrganoQuant数据集和对象检测管道，以及Matthews等人开发的OrganoID平台，都是基于类似的高吞吐量图像分析需求。此外，Bremer等人提出的GOAT工具和Domènech-Moreno等人基于YOLO v5的Tellu算法，进一步扩展了组织体检测的应用范围。这些工作不仅验证了MultiOrg数据集的实用性和前瞻性，还推动了整个领域的技术进步。

数据集最近研究