five

OCELOT

收藏
arXiv2023-03-24 更新2024-06-21 收录
下载链接:
https://lunit-io.github.io/research/publications/ocelot/
下载链接
链接失效反馈
官方服务:
资源简介:
OCELOT数据集是由Lunit Inc.创建的专门用于研究组织学图像中细胞与组织关系的资源。该数据集包含来自多个器官的图像,每张图像都附带有细胞和组织的详细注释。OCELOT旨在通过提供包含重叠区域的细胞和组织注释,支持开发和评估细胞检测模型。数据集的创建过程涉及从TCGA数据库中收集306张全切片图像,并由专业病理学家进行注释。OCELOT的应用领域主要集中在计算病理学,特别是提高细胞检测的准确性和理解细胞与组织之间的相互作用。

The OCELOT dataset is a resource created by Lunit Inc. specifically for researching the relationship between cells and tissues in histology images. This dataset contains images from multiple organs, with each image accompanied by detailed annotations of cells and tissues. OCELOT aims to support the development and evaluation of cell detection models by providing cell and tissue annotations that include overlapping regions. The dataset creation process involved collecting 306 whole-slide images from the TCGA database, with annotations performed by professional pathologists. The application fields of OCELOT mainly focus on computational pathology, particularly improving the accuracy of cell detection and understanding the interactions between cells and tissues.
提供机构:
Lunit Inc.
创建时间:
2023-03-23
搜集汇总
数据集介绍
main_image_url
构建方式
在计算病理学领域,细胞检测作为基础任务,其准确性高度依赖于细胞形态与组织结构的协同理解。OCELOT数据集的构建旨在模拟病理学家的工作流程,通过采集来自肾脏、头颈、前列腺、胃、子宫内膜和膀胱六个器官的306张全切片图像,精心选取组织区域并随机划定完全包含于内的细胞检测区域。最终形成673对配对的图像块,其中细胞检测任务采用1024×1024像素的小视野图像块,组织分割任务则采用4096×4096像素的大视野图像块,两者在空间上完全重叠,并以0.2微米/像素的分辨率对齐。所有标注均由认证病理学家完成,细胞以点坐标形式标注为肿瘤细胞或背景细胞,组织则以像素级分割图标注为癌区或背景,确保了标注的权威性与一致性。
特点
OCELOT数据集的核心特点在于其首创性地提供了细胞与组织在重叠区域的双重标注,从而为研究细胞-组织关系奠定了数据基础。数据集涵盖多器官来源,增强了模型的泛化能力与生物学代表性。其标注规模显著,包含约11.47万个细胞标注与4.267平方厘米的组织标注区域,体量约为同类公开数据集的两倍。数据划分遵循严格的样本独立性原则,按6:2:2比例分为训练、验证与测试集,且保持了各癌症类型在子集中的均衡分布。这种设计不仅支持多任务学习框架的开发,更能有效促进模型对细胞形态细节与组织宏观结构的协同理解,推动计算病理学向更仿生、更可靠的方向发展。
使用方法
OCELOT数据集主要用于开发能够融合细胞与组织信息的计算模型,尤其适用于多任务学习框架。研究者可基于配对的小视野细胞图像块与大视野组织图像块,训练同时执行细胞检测与组织分割的神经网络。典型方法包括组织预测注入模型,即在细胞检测分支的不同层级注入组织分割的概率图;或采用细胞-组织特征共享模型,实现双向的特征交互。数据集支持对模型进行端到端训练,并通过验证集优化超参数,最终在独立测试集上评估细胞检测性能,如F1分数等指标。此外,其多器官特性允许进行跨器官泛化性研究,而公开可获取的特性也便于与其他数据集(如TIGER、CARP)进行对比实验,以验证细胞-组织关系建模的普遍有效性。
背景与挑战
背景概述
在计算病理学领域,细胞检测作为一项基础性任务,对于从全切片图像中提取高级医学信息至关重要。OCELOT数据集由Lunit Inc.的研究团队于2023年创建,旨在解决细胞检测中细胞与组织层级关系的研究空白。该数据集通过提供多器官来源的细胞与组织重叠注释,模拟病理学家在诊断时结合宏观组织结构和微观细胞形态的分析行为,从而推动计算病理学中细胞-组织关系建模的发展。OCELOT的发布为多任务学习框架提供了关键数据支持,显著提升了细胞检测性能,并在TIGER和CARP等数据集上验证了其泛化能力,对病理图像分析领域具有重要的方法论贡献。
当前挑战
OCELOT数据集致力于解决计算病理学中细胞检测任务的挑战,即如何通过整合细胞与组织的层级关系提升模型性能。传统细胞检测模型通常局限于高倍率视野下的形态学特征,忽视了组织上下文信息,导致在细胞分类时出现误判,例如肿瘤细胞与背景细胞的混淆。构建过程中的挑战包括:获取高质量细胞与组织重叠注释的困难,因病理专家稀缺且标注成本高昂;数据需涵盖多器官来源以增强泛化性,但不同器官的组织异质性增加了标注一致性难度;此外,设计合理的视野配置以平衡细胞细节捕捉与组织上下文理解,需在像素分辨率与视野范围间取得微妙平衡。
常用场景
经典使用场景
在计算病理学领域,细胞检测是分析全切片图像以提取高级医学信息的基础任务。OCELOT数据集通过提供重叠的细胞和组织注释,专门用于研究细胞与组织之间的层次关系,以提升细胞检测模型的性能。其经典使用场景在于训练多任务学习模型,使模型能够同时学习细胞检测和组织分割任务,模拟病理学家在诊断时先观察组织整体结构再聚焦细胞细节的认知过程。
衍生相关工作
OCELOT数据集的发布催生了一系列围绕细胞-组织关系的研究工作。例如,基于该数据集提出的组织预测注入模型和细胞-组织特征共享模型,通过多任务学习显著提升了细胞检测性能。此外,该数据集也促进了与TIGER、CARP等数据集的跨域比较研究,推动了计算病理学中上下文感知模型架构的演进,为后续研究如细胞-组织图神经网络等方向提供了数据和方法论基础。
数据集最近研究
最新研究方向
在计算病理学领域,OCELOT数据集的推出标志着细胞-组织关系研究迈入新阶段。该数据集通过提供多器官来源的细胞与组织重叠标注,为模拟病理学家诊断行为——即结合大视野组织结构和细胞形态进行综合分析——奠定了数据基础。前沿研究聚焦于利用多任务学习框架,探索细胞检测与组织分割的协同优化,其中组织预测注入模型和细胞-组织特征共享模型显著提升了细胞检测的F1分数。这一方向不仅推动了病理图像分析中上下文感知模型的发展,也为癌症预后评估和个性化治疗提供了更可靠的量化工具,在临床应用中展现出深远潜力。
相关研究论文
  • 1
    OCELOT: Overlapped Cell on Tissue Dataset for HistopathologyLunit Inc. · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作