Lizard
收藏arXiv2021-11-29 更新2024-07-24 收录
下载链接:
https://warwick.ac.uk/lizard-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Lizard数据集是由华威大学计算机科学系和多家医疗机构合作创建的大型核实例分割与分类数据集,专注于结肠组织。该数据集包含近50万标记的核,涵盖多种细胞类型,如上皮细胞、结缔组织细胞、淋巴细胞等。数据集通过多阶段注释流程生成,包括自动和半自动预测的精细调整,以及病理学家的参与,确保注释的准确性和可靠性。Lizard数据集旨在推动计算病理学中基于细胞的模型的开发,特别是在结肠肿瘤微环境的分析和预测中。
The Lizard Dataset is a large-scale nuclear instance segmentation and classification dataset focused on colon tissue, developed through collaboration between the Department of Computer Science at the University of Warwick and multiple medical institutions. This dataset contains nearly 500,000 annotated nuclei, covering a variety of cell types including epithelial cells, connective tissue cells, lymphocytes, and others. The dataset is generated via a multi-stage annotation pipeline, which includes fine-tuning of automated and semi-automated predictions as well as involvement of pathologists, to ensure the accuracy and reliability of the annotations. The Lizard Dataset aims to advance the development of cell-based models in computational pathology, particularly in the analysis and prediction of the colon tumor microenvironment.
提供机构:
华威大学计算机科学系
创建时间:
2021-08-25
搜集汇总
数据集介绍

构建方式
Lizard数据集的构建采用了多阶段标注流程,以实现大规模数据集的准确标注。首先,利用公开数据训练自动核分割和分类模型,对未标注的目标数据集进行标注。随后,应用顺序边界细化策略,重点关注分割结果不满意的核。接着,采用自动化方法对炎症细胞进行亚型分类,并对所有核的分类标签进行验证。整个流程中,病理学家积极参与,确保最终数据集的可靠性。
特点
Lizard数据集是计算病理学领域已知最大的核实例分割和分类数据集,包含近五十万个已标注的核。该数据集专注于结肠组织,包含来自不同结肠条件的图像,以提高泛化能力。此外,Lizard数据集采用了新颖的采样方法,可以对数据集的代表样本进行一致性度量计算。
使用方法
Lizard数据集可用于训练和评估核分割和分类模型。研究人员可以使用该数据集进行模型开发、性能评估和下游细胞分析。数据集已被分为三折,以便进行交叉验证,并提供了相应的评估统计数据。此外,数据集还包括来自TCGA的外部测试集,以供研究人员进行模型验证和比较。
背景与挑战
背景概述
在计算病理学领域,深度分割模型的发展有助于推动可解释形态生物标志物的探究。然而,这类方法的成功面临着巨大的瓶颈,因为监督深度学习模型需要大量准确标注的数据。在计算病理学领域,这一问题尤为突出,因为详细标注的生成通常需要病理学家来区分不同的组织结构。手动标注核可能不是一个可行的方法来收集大规模的标注数据集,尤其是当单个图像区域可能包含数千个不同的细胞时。然而,仅仅依靠自动生成标注将限制真实值的准确性和可靠性。因此,为了克服上述挑战,我们提出了一种多阶段标注流程,以实现大规模数据集的收集,用于组织学图像分析,其中包含病理学家参与的细化步骤。使用此流程,我们生成了目前已知最大的核实例分割和分类数据集,其中包含近五十万个在H&E染色结肠组织中标注的核。我们发布了该数据集,并鼓励研究社区利用它来推动下游基于细胞的模型的发展。
当前挑战
1) 核分割和分类的挑战:核分割和分类是计算病理学中的一个关键问题,因为准确的定位临床相关结构是提取有意义的人类可解释特征的重要初始步骤。然而,现有的核分割数据集大多标注为单一类别,无法区分不同类型的核,限制了下游任务的准确性。2) 构建过程中的挑战:构建大规模标注数据集需要大量的人工标注,这是一个耗时且成本高昂的过程。此外,随着数据量的增加,收集到的标注的准确性可能会降低。为了克服这些挑战,我们采用了多阶段标注流程,其中包含病理学家参与的细化步骤,以确保最终数据集的准确性和可靠性。
常用场景
经典使用场景
Lizard 数据集在结肠组织病理学领域中被广泛用于细胞核实例分割和分类。通过深度学习模型的应用,Lizard 数据集为研究细胞核形态学特征提供了宝贵的资源。其最大的优势在于,它包含了近五十万个经过精确标注的细胞核,涵盖了上皮细胞、结缔组织细胞、淋巴细胞、浆细胞、中性粒细胞和嗜酸性粒细胞等多种类型。这使得 Lizard 成为研究人员开发下游细胞模型的重要工具,特别是在预测癌症分级、肿瘤微环境分析等方面。此外,Lizard 数据集还提供了多阶段标注流程,确保了数据集的准确性和可靠性。
衍生相关工作
Lizard 数据集的发布推动了计算病理学领域相关研究的进展。基于 Lizard 数据集,研究人员可以开发更精确的细胞核分割和分类模型,从而提高病理诊断的准确性和效率。此外,Lizard 数据集还可以用于研究细胞核形态学特征与疾病之间的关系,为疾病的预防和治疗提供新的思路。例如,研究人员可以利用 Lizard 数据集开发新的生物标志物,用于早期诊断和治疗疾病。同时,Lizard 数据集还可以用于研究肿瘤微环境,从而更好地理解肿瘤的发生和发展机制。总之,Lizard 数据集的发布为计算病理学领域的研究提供了重要的数据支持,推动了该领域的发展。
数据集最近研究
最新研究方向
在计算病理学(CPath)领域,Lizard数据集的发布标志着核实例分割与分类研究的重要进展。该数据集通过多阶段标注流程,实现了大规模、高精度标注,为深度学习模型在结肠组织分析中的应用提供了宝贵资源。Lizard数据集不仅规模庞大,还涵盖了多种组织类型,包括上皮细胞、结缔组织细胞、淋巴细胞、浆细胞、中性粒细胞和嗜酸性粒细胞,有助于更全面地分析肿瘤微环境。研究显示,基于Lizard数据集训练的模型在核分割与分类任务中表现出色,为下游细胞模型的发展奠定了基础。未来,Lizard数据集有望进一步扩展,增加核类型,并用于非结肠计算病理学应用。此外,基于Lizard数据集的模型还可以用于预测临床结果,为癌症的诊断和治疗提供新的见解。
相关研究论文
- 1Lizard: A Large-Scale Dataset for Colonic Nuclear Instance Segmentation and Classification华威大学计算机科学系 · 2021年
以上内容由遇见数据集搜集并总结生成



