five

MultiOrg|生物医学图像分析数据集|器官检测数据集

收藏
arXiv2024-10-19 更新2024-10-22 收录
生物医学图像分析
器官检测
下载链接:
https://www.kaggle.com/datasets/christinabukas/mutliorg
下载链接
链接失效反馈
资源简介:
MultiOrg数据集是由亥姆霍兹慕尼黑计算健康中心创建的一个用于器官检测任务的多评测者数据集,包含超过400张高分辨率的2D显微镜图像和超过60,000个器官的注释。数据集内容涵盖了从不同生物研究设置中获得的肺器官图像,具有两种类型的器官在不同条件下生长。数据集的创建过程包括图像采集、分割、拼接和注释,由两位专家在不同时间点独立注释,形成三个标签集。该数据集主要应用于生物医学图像分析领域,旨在解决器官检测中的不确定性量化问题,推动深度学习模型在器官检测中的应用。
提供机构:
亥姆霍兹慕尼黑计算健康中心
创建时间:
2024-10-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
MultiOrg数据集的构建基于超过400张高分辨率的2D显微镜图像,这些图像涵盖了从不同生物学研究设置中获得的肺类器官。数据集的标注过程由两位专家在不同时间点独立完成,确保了标注的不确定性得以量化。具体而言,数据集包括了超过60,000个类器官的标注,其中测试数据集包含了三个独立的标注集,分别由两位专家在不同时间点进行标注。这种多标注者的设计使得数据集能够用于评估标注噪声对模型训练的影响,并推动不确定性量化研究的发展。
特点
MultiOrg数据集的主要特点在于其多标注者设计和标注不确定性的量化。通过引入三位专家在不同时间点的标注,数据集能够提供对标注一致性和差异性的深入分析。此外,数据集的高分辨率图像和多样化的生物学研究设置确保了其在真实世界复杂性中的代表性。这些特点使得MultiOrg不仅适用于对象检测任务的基准测试,还能够推动生物医学图像分析领域中不确定性量化方法的研究。
使用方法
MultiOrg数据集的使用方法包括训练和测试对象检测模型,以及评估这些模型在不同标注集上的性能。研究者可以通过使用数据集中的训练集来训练模型,并利用测试集中的多个标注集来验证模型的鲁棒性和对标注噪声的敏感性。此外,数据集还附带了一个基准测试工具,该工具基于流行的图像可视化工具Napari,允许用户在量化类器官之前进行可视化和校正。这种交互式的工具设计使得高吞吐量的图像分析成为可能,从而加速了生物学研究的进程。
背景与挑战
背景概述
MultiOrg数据集由Helmholtz Munich和Philipps-University Marburg的研究团队创建,专注于生物医学领域的高通量图像分析。该数据集于2024年发布,包含超过400张高分辨率的2D显微镜图像,涵盖了超过60,000个肺类器官的注释。其核心研究问题在于自动化类器官的量化,以克服高通量图像分析中的手动量化瓶颈。MultiOrg不仅提供了丰富的图像数据,还引入了多标签集,允许对注释不确定性进行量化,从而推动了不确定性量化研究的发展,并对生物医学图像分析领域产生了深远影响。
当前挑战
MultiOrg数据集面临的挑战主要集中在两个方面:一是解决生物医学图像分析中对象检测的复杂性,包括类器官在显微镜图像中的重叠结构、尺寸和形状的多样性,以及区分类器官与培养基中的灰尘和碎屑;二是构建过程中遇到的注释不确定性问题,由于人类专家的主观性和疲劳导致的注释误差和偏差,引入了标签噪声。此外,该数据集还需应对缺乏开放生物医学数据集的现状,以及在对象检测任务中量化注释不确定性的需求。
常用场景
经典使用场景
MultiOrg数据集在生物医学图像分析领域具有经典应用场景,主要用于自动化组织体检测任务。通过提供超过400张高分辨率2D显微镜图像和超过60,000个组织体的手工标注,该数据集支持开发和评估对象检测算法。其独特之处在于包含了由两位专家在不同时间点独立标注的三组标签,这使得研究人员能够量化标签的不确定性,从而在标签噪声感知的环境中进行算法基准测试。
衍生相关工作
MultiOrg数据集的发布催生了一系列相关研究工作,特别是在组织体检测和不确定性量化领域。例如,Kassis等人提出的OrganoQuant数据集和对象检测管道,以及Matthews等人开发的OrganoID平台,都是基于类似的高吞吐量图像分析需求。此外,Bremer等人提出的GOAT工具和Domènech-Moreno等人基于YOLO v5的Tellu算法,进一步扩展了组织体检测的应用范围。这些工作不仅验证了MultiOrg数据集的实用性和前瞻性,还推动了整个领域的技术进步。
数据集最近研究
最新研究方向
在生物医学领域,高通量图像分析的自动化已成为药物发现、疾病预测和个性化医疗的关键推动力。MultiOrg数据集的最新研究方向聚焦于器官芯片(organoid)检测任务中的不确定性量化。该数据集不仅提供了超过60,000个器官芯片的高分辨率显微图像和精细标注,还引入了多标签集的概念,通过两位专家在不同时间点的独立标注,量化了标签噪声。这一研究方向不仅有助于探索标注中的偏差及其对模型训练的影响,还推动了不确定性量化这一活跃研究领域的发展。通过提供基准测试和最佳模型,MultiOrg数据集为生物医学图像分析中的对象检测算法提供了宝贵的资源,特别是在处理复杂的真实世界数据时,如何理解和应对标签不确定性成为了深度学习模型训练和评估的关键。
相关研究论文
  • 1
    MultiOrg: A Multi-rater Organoid-detection Dataset亥姆霍兹慕尼黑计算健康中心 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

PeMS data-sets

该数据集来自Caltrans Performance Measurement System (PeMS),存储在PeMS Data Clearinghouse中,用于交通数据分析。数据集通过浏览器扩展批量下载,并加载到内部SQL服务器实例中进行进一步处理和汇总。

github 收录