OCELOT 2023:Cell Detection from Cell-Tissue Interaction
收藏arXiv2025-09-11 更新2025-09-13 收录
下载链接:
https://doi.org/10.1016/j.media.2025.103751
下载链接
链接失效反馈官方服务:
资源简介:
OCELOT 2023数据集是一个包含来自六个器官的细胞检测和组织分割标注的重叠数据集,旨在研究细胞和组织之间的相互作用。该数据集来源于306张TCGA全切片图像,包含673对细胞和组织切片,分为训练、验证和测试子集。数据集的特点是包含重叠的细胞和组织标注,有助于深入理解细胞与组织之间的关系。数据集的创建过程包括由67位认证病理学家进行的细致标注,确保了数据的质量和可靠性。该数据集广泛应用于计算病理学领域,特别是在肿瘤细胞检测和组织分割任务中,有助于提高模型的准确性和有效性。
The OCELOT 2023 Dataset is an overlapping dataset containing cell detection and tissue segmentation annotations from six organs, designed to study the interactions between cells and tissues. It is derived from 306 whole-slide images of The Cancer Genome Atlas (TCGA), and includes 673 pairs of cell and tissue slices, which are split into training, validation and test subsets. The dataset is characterized by overlapping cell and tissue annotations, which supports in-depth exploration of the relationship between cells and tissues. The creation of this dataset involved meticulous annotations performed by 67 board-certified pathologists, ensuring its data quality and reliability. This dataset is widely applied in the field of computational pathology, particularly in tumor cell detection and tissue segmentation tasks, and helps improve the accuracy and effectiveness of relevant models.
提供机构:
Lunit Inc.,Seoul,Republic of Korea; University of Science and Technology of China,Hefei,China; School of Computing,Engineering and Mathematical Sciences,La Trobe University,Melbourne,Australia; Department of Pathology and Molecular Pathology,University Hospital of Z ̈urich,University of Z ̈urich,Z ̈urich,Switzerland; Institute of Medical Genetics and Pathology,University Hospital Basel,University of Basel,Basel,Switzerland; Department of Oncology,University of Oxford,Oxford,UK; Bio-totem Pte Ltd,Foshan,China; Department of Computer Science,National Tsing Hua University,Hsinchu,Taiwan
创建时间:
2025-09-11
搜集汇总
数据集介绍

构建方式
OCELOT 2023数据集基于306张来自癌症基因组图谱(TCGA)的全幻灯片图像(WSI),涵盖肾脏、头颈、前列腺、胃、子宫内膜和膀胱六种器官的H&E染色组织切片。数据构建采用多尺度标注策略,通过选择组织区域兴趣点(ROI)进行组织分割标注,并在其内部随机选取重叠区域进行细胞检测标注,最终形成673对配对图像块,包括1024×1024像素的细胞检测块和4096×4096像素的组织分割块,分辨率统一为0.2微米每像素。标注过程由67位认证病理学家执行,细胞标注采用三病理学家共识机制以减少观察者间差异,组织标注则通过像素级分割图标识癌区与背景。
特点
该数据集的核心特征在于其多尺度重叠标注设计,同时提供细胞级点标注(分为肿瘤细胞与背景细胞)和组织级像素分割标注(癌区与背景区域),有效捕捉细胞与组织间的空间语义关系。数据覆盖六种器官类型,包含673个配对样本,均源自临床真实的TCGA数据,具有高度的生物学多样性和临床相关性。标注质量控制通过多专家共识和标准化协议实现,确保数据的一致性与可靠性。此外,数据集严格按幻灯片级别划分训练、验证与测试集,避免信息泄露,并保持器官间的类别平衡。
使用方法
数据集主要用于训练和评估结合细胞-组织交互关系的深度学习模型,特别支持多任务学习框架。使用者需首先加载配对的细胞与组织图像块,利用组织分割信息作为上下文先验,增强细胞检测的语义感知。典型流程包括:预处理阶段进行色彩标准化与数据增强,模型设计阶段融合组织特征(如通过特征拼接或概率注入),训练阶段采用联合损失函数优化细胞检测与组织分割任务。评估需遵循官方指标(平均F1分数),使用3微米的匹配半径计算细胞检测的真阳性率。模型应端到端处理多尺度输入,输出细胞坐标与类别,并可结合组织预测结果进行后处理优化。
背景与挑战
背景概述
OCELOT 2023数据集由Lunit Inc.联合全球多所学术机构于2023年构建,聚焦于计算病理学中细胞-组织交互关系的量化分析。该数据集源自306份TCGA全幻灯片图像,涵盖肾脏、头颈部等六类器官的673对标注样本,包含细胞检测与组织分割的双重注释。其核心研究在于突破传统细胞检测模型局限于局部视野的瓶颈,通过多尺度语义融合模拟病理医师的动态观察模式,为癌症微环境研究提供了关键数据基础,显著推动了细胞上下文感知模型的发展。
当前挑战
该数据集致力于解决细胞检测中因缺乏组织上下文导致的分类模糊性问题,其构建面临三重挑战:一是多尺度标注需协调细胞级点注释与组织级像素分割的时空对齐;二是病理学家间标注一致性控制需采用三重共识机制以降低主观差异;三是细胞与组织区域复杂交互关系的量化需设计新型评估指标(如3μm半径匹配准则)以平衡检测精度与召回率。
常用场景
经典使用场景
在计算病理学领域,OCELOT 2023数据集被广泛应用于多尺度细胞检测任务中,其独特的设计允许研究者同时利用高分辨率细胞图像和宽视场组织分割标注。该数据集通过提供来自六个器官的673对重叠标注样本,支持模型学习细胞与组织间的语义关联,从而模拟病理学家在诊断过程中动态调整放大倍数的行为。典型应用包括开发能够整合细胞形态特征与组织上下文信息的深度学习架构,以提升细胞定位和分类的准确性。
解决学术问题
OCELOT 2023数据集解决了计算病理学中细胞检测模型缺乏多尺度上下文感知能力的核心问题。传统方法因受限于狭窄的视场而难以捕捉细胞与组织结构的交互关系,导致分类性能瓶颈。该数据集通过提供配对的组织分割和细胞检测标注,使研究者能够验证细胞-组织语义关联对模型性能的影响,显著提升了肿瘤细胞与背景细胞的区分精度,F1分数最大提升达7.99%,推动了多尺度语义融合模型的理论发展。
衍生相关工作
OCELOT 2023数据集催生了多项创新性研究,例如Li等人提出的基于Vision Transformer的CellViT架构,通过联合训练细胞与组织分支实现特征融合;Millward团队利用SegFormer模型进行高斯热图生成以处理细胞边界不确定性;Schoenpflug等人则采用NuClick核分割技术提升标注精度。这些工作共同推动了多尺度关系建模、弱监督学习和领域自适应方法在计算病理学中的发展。
以上内容由遇见数据集搜集并总结生成



