MultiOrg
收藏arXiv2024-10-19 更新2024-10-22 收录
下载链接:
https://www.kaggle.com/datasets/christinabukas/mutliorg
下载链接
链接失效反馈资源简介:
MultiOrg数据集是由亥姆霍兹慕尼黑计算健康中心创建的一个用于器官检测任务的多评测者数据集,包含超过400张高分辨率的2D显微镜图像和超过60,000个器官的注释。数据集内容涵盖了从不同生物研究设置中获得的肺器官图像,具有两种类型的器官在不同条件下生长。数据集的创建过程包括图像采集、分割、拼接和注释,由两位专家在不同时间点独立注释,形成三个标签集。该数据集主要应用于生物医学图像分析领域,旨在解决器官检测中的不确定性量化问题,推动深度学习模型在器官检测中的应用。
The MultiOrg dataset is a multi-rater dataset for organ detection tasks, developed by the Helmholtz Munich Computational Health Center. It contains over 400 high-resolution 2D microscopy images and annotations for more than 60,000 organs. The dataset includes lung organ images acquired from diverse biological research settings, featuring two types of organs grown under varying conditions. The dataset creation workflow encompasses image acquisition, segmentation, stitching, and annotation. It was independently annotated by two experts at distinct time points, yielding three label sets. This dataset is primarily utilized in the field of biomedical image analysis, with the goals of addressing uncertainty quantification challenges in organ detection and advancing the application of deep learning models for organ detection tasks.
提供机构:
亥姆霍兹慕尼黑计算健康中心
创建时间:
2024-10-19
AI搜集汇总
数据集介绍

构建方式
MultiOrg数据集的构建基于超过400张高分辨率的2D显微镜图像,这些图像涵盖了从不同生物学研究设置中获得的肺类器官。数据集的标注过程由两位专家在不同时间点独立完成,确保了标注的不确定性得以量化。具体而言,数据集包括了超过60,000个类器官的标注,其中测试数据集包含了三个独立的标注集,分别由两位专家在不同时间点进行标注。这种多标注者的设计使得数据集能够用于评估标注噪声对模型训练的影响,并推动不确定性量化研究的发展。
特点
MultiOrg数据集的主要特点在于其多标注者设计和标注不确定性的量化。通过引入三位专家在不同时间点的标注,数据集能够提供对标注一致性和差异性的深入分析。此外,数据集的高分辨率图像和多样化的生物学研究设置确保了其在真实世界复杂性中的代表性。这些特点使得MultiOrg不仅适用于对象检测任务的基准测试,还能够推动生物医学图像分析领域中不确定性量化方法的研究。
使用方法
MultiOrg数据集的使用方法包括训练和测试对象检测模型,以及评估这些模型在不同标注集上的性能。研究者可以通过使用数据集中的训练集来训练模型,并利用测试集中的多个标注集来验证模型的鲁棒性和对标注噪声的敏感性。此外,数据集还附带了一个基准测试工具,该工具基于流行的图像可视化工具Napari,允许用户在量化类器官之前进行可视化和校正。这种交互式的工具设计使得高吞吐量的图像分析成为可能,从而加速了生物学研究的进程。
背景与挑战
背景概述
MultiOrg数据集由Helmholtz Munich和Philipps-University Marburg的研究团队创建,专注于生物医学领域的高通量图像分析。该数据集于2024年发布,包含超过400张高分辨率的2D显微镜图像,涵盖了超过60,000个肺类器官的注释。其核心研究问题在于自动化类器官的量化,以克服高通量图像分析中的手动量化瓶颈。MultiOrg不仅提供了丰富的图像数据,还引入了多标签集,允许对注释不确定性进行量化,从而推动了不确定性量化研究的发展,并对生物医学图像分析领域产生了深远影响。
当前挑战
MultiOrg数据集面临的挑战主要集中在两个方面:一是解决生物医学图像分析中对象检测的复杂性,包括类器官在显微镜图像中的重叠结构、尺寸和形状的多样性,以及区分类器官与培养基中的灰尘和碎屑;二是构建过程中遇到的注释不确定性问题,由于人类专家的主观性和疲劳导致的注释误差和偏差,引入了标签噪声。此外,该数据集还需应对缺乏开放生物医学数据集的现状,以及在对象检测任务中量化注释不确定性的需求。
常用场景
经典使用场景
MultiOrg数据集在生物医学图像分析领域具有经典应用场景,主要用于自动化组织体检测任务。通过提供超过400张高分辨率2D显微镜图像和超过60,000个组织体的手工标注,该数据集支持开发和评估对象检测算法。其独特之处在于包含了由两位专家在不同时间点独立标注的三组标签,这使得研究人员能够量化标签的不确定性,从而在标签噪声感知的环境中进行算法基准测试。
衍生相关工作
MultiOrg数据集的发布催生了一系列相关研究工作,特别是在组织体检测和不确定性量化领域。例如,Kassis等人提出的OrganoQuant数据集和对象检测管道,以及Matthews等人开发的OrganoID平台,都是基于类似的高吞吐量图像分析需求。此外,Bremer等人提出的GOAT工具和Domènech-Moreno等人基于YOLO v5的Tellu算法,进一步扩展了组织体检测的应用范围。这些工作不仅验证了MultiOrg数据集的实用性和前瞻性,还推动了整个领域的技术进步。
数据集最近研究
最新研究方向
在生物医学领域,高通量图像分析的自动化已成为药物发现、疾病预测和个性化医疗的关键推动力。MultiOrg数据集的最新研究方向聚焦于器官芯片(organoid)检测任务中的不确定性量化。该数据集不仅提供了超过60,000个器官芯片的高分辨率显微图像和精细标注,还引入了多标签集的概念,通过两位专家在不同时间点的独立标注,量化了标签噪声。这一研究方向不仅有助于探索标注中的偏差及其对模型训练的影响,还推动了不确定性量化这一活跃研究领域的发展。通过提供基准测试和最佳模型,MultiOrg数据集为生物医学图像分析中的对象检测算法提供了宝贵的资源,特别是在处理复杂的真实世界数据时,如何理解和应对标签不确定性成为了深度学习模型训练和评估的关键。
相关研究论文
- 1MultiOrg: A Multi-rater Organoid-detection Dataset亥姆霍兹慕尼黑计算健康中心 · 2024年
以上内容由AI搜集并总结生成



