IGNITE数据工具包
收藏arXiv2025-07-21 更新2025-08-14 收录
下载链接:
https://zenodo.org/records/15674785
下载链接
链接失效反馈官方服务:
资源简介:
IGNITE数据工具包是一个多染料、多中心和多扫描仪的数据集,用于分析非小细胞肺癌的H&E和PD-L1免疫组化染色的全切片图像。该数据集包含来自155名独特患者的887个完全注释的兴趣区域,涵盖了三个互补的任务:多类语义分割、核检测和PD-L1阳性肿瘤细胞检测。IGNITE数据工具包旨在为开发深度学习模型提供资源,以改进非小细胞肺癌中的组织分割和细胞检测,并促进新型生物标志物的发展。
The IGNITE toolkit is a multi-dye, multi-center, and multi-scanner dataset for analyzing whole-slide images of hematoxylin and eosin (H&E) and PD-L1 immunohistochemically stained sections derived from non-small cell lung cancer (NSCLC) patients. It contains 887 fully annotated regions of interest (ROIs) from 155 unique patients, covering three complementary tasks: multi-class semantic segmentation, nucleus detection, and PD-L1 positive tumor cell detection. The IGNITE toolkit aims to provide a valuable resource for developing deep learning models to improve tissue segmentation and cell detection in NSCLC, and to promote the development of novel biomarkers.
提供机构:
拉德堡德大学医学中心病理学系, 荷兰
创建时间:
2025-07-21
搜集汇总
数据集介绍

构建方式
IGNITE数据工具包通过多中心、多染色体的协作方式构建,涵盖了155名非小细胞肺癌(NSCLC)患者的887个全切片图像(WSIs)。数据集包含H&E染色和PD-L1免疫组化(IHC)染色的图像,并通过人工标注和AI辅助标注相结合的方式,对16种组织类别进行了语义分割,同时标注了细胞核及PD-L1阳性肿瘤细胞。标注过程由专业病理学家监督,确保了标注的准确性和一致性。此外,数据集还涵盖了转移性病灶的标注,填补了现有数据在转移性NSCLC研究中的空白。
特点
IGNITE数据工具包的特点在于其多任务标注的全面性和多样性。数据集不仅提供了H&E染色图像中16种组织类别的精细分割,还包括PD-L1 IHC图像中的细胞核检测和PD-L1阳性肿瘤细胞检测。其标注涵盖了原发性及转移性NSCLC的多种组织形态,尤其是与肿瘤免疫微环境(TIME)相关的关键类别,如肿瘤细胞、间质、炎症区域和巨噬细胞等。此外,数据集还包含了不同PD-L1单克隆抗体的标注,为研究PD-L1表达的异质性提供了丰富的数据支持。
使用方法
IGNITE数据工具包适用于多种计算病理学任务,包括组织分割、细胞检测和生物标志物开发。用户可通过公开的Zenodo存储库获取标注数据,数据以PNG图像和JSON格式提供,便于直接用于深度学习模型的训练和验证。对于H&E图像的组织分割任务,用户可利用提供的多类别标注进行语义分割模型的开发;对于PD-L1 IHC图像,数据集支持细胞核检测和PD-L1阳性肿瘤细胞的分类任务。此外,数据集还提供了预训练的模型权重和评估代码,方便用户进行技术验证和进一步研究。
背景与挑战
背景概述
IGNITE数据工具包由Radboud大学医学中心等机构于2025年推出,旨在解决非小细胞肺癌(NSCLC)组织病理学图像分析中的关键问题。该数据集包含887个经过全面标注的感兴趣区域,涵盖155名独特患者的H&E染色切片和PD-L1免疫组化图像,提供了16类组织区室的多类语义分割、细胞核检测以及PD-L1阳性肿瘤细胞检测。作为首个公开包含转移性病灶H&E标注和PD-L1细胞级注释的NSCLC数据集,它为肿瘤免疫微环境(TIME)的量化分析及免疫治疗反应预测生物标志物的开发提供了重要资源。
当前挑战
该数据集面临的挑战主要体现在两方面:领域问题上,现有NSCLC数字病理数据集普遍存在标注范围有限、缺乏转移病灶数据及分子信息(如PD-L1表达)的缺陷,限制了免疫治疗响应预测模型的开发;构建过程中,团队需克服多中心样本的染色差异与扫描仪异质性,并通过AI辅助标注流程解决巨噬细胞等形态多样细胞的识别难题,同时确保跨机构病理学家对PD-L1阳性判读标准的一致性。此外,转移性病灶中非肺组织(如肝实质)的形态学复杂性也为标注和模型泛化带来显著挑战。
常用场景
经典使用场景
IGNITE数据工具包在非小细胞肺癌(NSCLC)的肿瘤免疫微环境(TIME)研究中具有重要应用价值。该数据集通过提供H&E染色和PD-L1免疫组化(IHC)的全切片图像,支持研究人员开发细胞检测和组织分割算法。其经典使用场景包括多类语义分割任务,涵盖16种组织类型,如肿瘤细胞、间质、炎症区域和坏死组织,为TIME的量化分析提供了详细注释。此外,数据集还包含转移性病灶的注释,填补了现有数据在临床常见转移部位的空白。
衍生相关工作
IGNITE数据工具包已衍生出多项经典研究工作。基于该数据集开发的nnUNet-for-pathology框架在组织分割任务中实现了0.79的F1分数,为后续研究提供了基准模型。YOLOv5架构在PD-L1阳性肿瘤细胞检测中达到与病理学家相当的识别水平。相关成果还推动了国际免疫肿瘤生物标志物工作组指南的更新,特别是在TILs量化标准方面。这些衍生工作显著提升了数字病理学在精准医疗中的应用潜力。
数据集最近研究
最新研究方向
近年来,IGNITE数据工具包在非小细胞肺癌(NSCLC)组织病理学图像分析领域引起了广泛关注。该数据集通过提供H&E染色和PD-L1免疫组化(IHC)图像的多重标注,填补了现有数据在转移性病灶标注和分子信息整合方面的空白。前沿研究方向主要集中在利用深度学习模型进行肿瘤免疫微环境(TIME)的量化分析,包括组织分割、细胞检测以及PD-L1阳性肿瘤细胞的识别。这些研究不仅推动了免疫检查点抑制剂(ICIs)治疗反应的生物标志物开发,还为临床决策提供了更精准的预测工具。IGNITE数据工具包的发布,为跨机构、多中心的协作研究提供了标准化平台,显著提升了NSCLC病理学研究的可重复性和泛化能力。
相关研究论文
- 1A tissue and cell-level annotated H&E and PD-L1 histopathology image dataset in non-small cell lung cancer拉德堡德大学医学中心病理学系, 荷兰 · 2025年
以上内容由遇见数据集搜集并总结生成



