LYSTO
收藏arXiv2023-04-13 更新2024-06-21 收录
下载链接:
https://lysto.grand-challenge.org/
下载链接
链接失效反馈官方服务:
资源简介:
LYSTO数据集是由Radboud大学医学中心创建的淋巴细胞评估基准数据集,专注于结肠、乳腺和前列腺癌组织病理学图像中的T细胞。该数据集是在与中国深圳MICCAI 2019会议联合举办的黑客马拉松中开发的。数据集包含来自83个数字病理学全切片图像的20,000个样本,用于自动量化CD3和CD8阳性细胞。LYSTO旨在通过提供一个轻量级的即插即用基准数据集,支持肿瘤学中淋巴细胞评估的研究,并作为深度学习和数字病理学的长期教育挑战。
The LYSTO dataset is a benchmark dataset for lymphocyte assessment created by the Radboud University Medical Center, focusing on T cells in histopathological images of colon, breast, and prostate cancers. This dataset was developed during a hackathon co-hosted with the MICCAI 2019 conference held in Shenzhen, China. The dataset contains 20,000 samples derived from 83 digital pathology whole-slide images, and is designed for automatic quantification of CD3 and CD8-positive cells. The LYSTO dataset aims to support research on lymphocyte assessment in oncology by providing a lightweight, plug-and-play benchmark dataset, and also serves as a long-term educational challenge for deep learning and digital pathology.
提供机构:
Radboud University Medical Center
创建时间:
2023-01-16
搜集汇总
数据集介绍

构建方式
LYSTO数据集源自一项与MICCAI 2019会议同期举办的黑客马拉松竞赛,旨在推动免疫组织化学图像中淋巴细胞自动计数技术的发展。该数据集收集了来自荷兰九家医疗中心的83张全切片图像,涵盖结肠癌、乳腺癌和前列腺癌三种癌症类型,并分别使用CD3和CD8免疫组化染色标记T细胞。从每张切片中提取约11个感兴趣区域,以确保涵盖淋巴细胞簇、孤立细胞及背景染色、墨水等伪影。随后,以299×299像素的尺寸、200像素的步长提取部分重叠的图像块,并依据中心267×267像素区域内手动标注的淋巴细胞数量为每个图像块赋予标签。标签被离散化为多个区间,如1~5、6~10等,最终训练集包含20,000个图像块,测试集包含12,000个图像块,且按标签区间进行了平衡处理。此外,还收集了10例肺癌切片作为外部验证集,以评估模型的泛化能力。
使用方法
LYSTO数据集可通过Grand-Challenge平台(https://lysto.grand-challenge.org/)获取,同时提供自动评估系统,参与者只需提交CSV格式的预测结果即可获得量化评分。数据集以HDF5格式发布,便于快速加载和预处理,图像块尺寸为299×299像素,与ImageNet预训练模型的标准输入兼容,有利于在有限时间内高效开发深度学习方法。研究者可自由选择分类、回归或检测框架,无模型架构或训练策略限制,并允许使用外部数据或预训练模型。为便于复现和比较,官方提供了基于颜色反卷积和决策树的基线方法。此外,LYSTO还提供了外部肺癌验证集和LYON测试集的全感兴趣区域数据,支持在更大视野和不同器官数据上评估方法的鲁棒性与临床适用性。
背景与挑战
背景概述
在肿瘤免疫微环境研究日益深入的背景下,淋巴细胞的精确量化成为评估肿瘤预后与治疗反应的关键生物标志物。LYSTO(Lymphocyte Assessment Hackathon and Benchmark Dataset)数据集诞生于2019年MICCAI会议期间,由荷兰拉德堡德大学医学中心Francesco Ciompi团队牵头,联合多国研究机构共同创建。该数据集聚焦于结肠癌、乳腺癌及前列腺癌的CD3和CD8免疫组化染色切片中T细胞的自动计数问题,旨在通过弱监督学习范式推动计算病理学的发展。LYSTO不仅提供了来自9个医疗中心的多中心、多器官病理图像,还构建了在线评估平台,成为后续淋巴细胞量化研究的重要基准,其影响力延伸至肺癌等外部验证,展示了深度学习方法在临床辅助诊断中的巨大潜力。
当前挑战
LYSTO数据集所解决的领域问题核心在于免疫组化图像中淋巴细胞的自动计数,这面临多重挑战:首先,免疫组化染色存在背景染色、墨水伪影、组织制备差异等复杂干扰,使得单纯依赖颜色反卷积的‘计数棕色斑点’方法失效;其次,细胞密集区域、弱染色或不完全膜染色的淋巴细胞难以准确识别,导致算法易出现高估或低估。在数据集构建过程中,挑战同样严峻:需从83张全切片图像中提取32,000个299×299像素的补丁,并确保标签的精确性——仅统计中央267×267像素区域内的阳性细胞,同时平衡不同计数区间的样本分布,尤其对无淋巴细胞区域需选择性生成以模拟真实伪影。此外,作为黑客松形式,参与者需在数小时内完成模型开发,这对算法的快速收敛与泛化能力提出了极高要求。
常用场景
经典使用场景
在肿瘤微环境研究的广阔图景中,LYSTO数据集作为一项里程碑式的资源,被广泛用于评估和开发针对免疫组织化学染色图像中淋巴细胞自动计数的算法。其经典使用场景聚焦于从结肠癌、乳腺癌及前列腺癌的CD3和CD8染色全切片图像中提取的局部图像块,通过弱监督学习框架,精准预测每个图像块内阳性T细胞的数量。这一场景不仅模拟了病理学家在临床实践中对免疫细胞浸润程度的半定量评估,更通过将细胞计数转化为分类任务,为深度学习模型在计算病理学中的快速部署提供了标准化测试平台。
解决学术问题
LYSTO数据集的核心贡献在于解决了免疫组织化学分析中淋巴细胞定量评估的三大学术难题:首先,它缓解了人工计数固有的观察者间变异性和耗时性,通过提供大规模、多中心、多癌种的标注图像,为算法训练奠定了坚实基础;其次,它直面了免疫组化图像中背景染色、伪影和细胞团簇等复杂场景带来的挑战,促使研究者开发出超越传统颜色反卷积方法的鲁棒性模型;最后,它通过弱监督学习范式,证明了仅凭图像级计数标签即可实现与全监督检测相当的病理学家级性能,从而推动了弱监督学习在医学图像分析中的理论发展与应用边界。
实际应用
在临床转化层面,LYSTO数据集所催生的自动化淋巴细胞计数方法已展现出显著的实际应用价值。这些方法可无缝集成至数字病理工作流中,辅助病理学家高效评估肿瘤浸润淋巴细胞的密度,为免疫治疗疗效预测和预后判断提供客观量化指标。具体而言,该数据集训练的模型能够处理来自不同医疗中心和扫描仪的多源数据,在肺癌等未见器官的独立验证集上仍保持高精度,展现了卓越的泛化能力。这不仅缩短了从算法研发到临床部署的周期,还为构建大规模、标准化的免疫组化分析平台奠定了技术基础,有望推动精准肿瘤学中免疫生物标志物的标准化评估。
数据集最近研究
最新研究方向
在肿瘤免疫微环境研究日益深入的背景下,LYSTO数据集聚焦于CD3和CD8阳性T淋巴细胞的自动化定量评估,代表了计算病理学中弱监督学习与快速模型开发的前沿方向。该数据集源于MICCAI 2019黑客松挑战,通过提供多中心、多器官(结肠、乳腺、前列腺)的免疫组化病理图像,推动了深度学习算法在淋巴细胞计数任务上的突破。当前研究热点集中于此数据集在泛癌种场景下的泛化能力验证,尤其针对肺癌等未参与训练的独立数据集进行外部验证,结果显示部分方法已达到甚至超越病理学家的诊断水平。LYSTO作为轻量级基准平台,支持了后续多项肿瘤学与医学影像分析研究,其开放评估机制促进了算法在临床辅助诊断中的可重复性与实用性,对精准免疫治疗评估具有深远意义。
相关研究论文
- 1LYSTO: The Lymphocyte Assessment Hackathon and Benchmark DatasetRadboud University Medical Center · 2023年
以上内容由遇见数据集搜集并总结生成



