Camelyon+
收藏arXiv2024-11-16 更新2024-11-20 收录
下载链接:
https://doi.org/10.57760/sciencedb.16442
下载链接
链接失效反馈官方服务:
资源简介:
Camelyon+数据集是由中国医学科学院北京协和医学院肿瘤医院深圳医院创建,用于评估乳腺癌淋巴结转移的计算病理学任务。该数据集包含1350张全切片图像(WSIs),分为四类:阴性、微转移、宏转移和孤立肿瘤细胞(ITC)。数据集的创建过程包括对Camelyon-16和Camelyon-17数据集的重新处理,去除了低质量的切片,修正了错误的标签,并提供了专家像素级注释。Camelyon+数据集主要应用于AI驱动的病理图像分析,旨在提高乳腺癌淋巴结转移检测的准确性和效率。
The Camelyon+ dataset was developed by Shenzhen Hospital, Cancer Institute and Hospital of the Chinese Academy of Medical Sciences and Peking Union Medical College, for the computational pathology task of breast cancer lymph node metastasis evaluation. It contains 1350 whole-slide images (WSIs) categorized into four classes: negative, micrometastasis, macrometastasis, and isolated tumor cells (ITCs). The dataset construction process includes reprocessing the Camelyon-16 and Camelyon-17 datasets, eliminating low-quality slides, correcting mislabeled samples, and providing expert-level pixel-wise annotations. Primarily applied to AI-driven pathological image analysis, the Camelyon+ dataset aims to enhance the accuracy and efficiency of breast cancer lymph node metastasis detection.
提供机构:
中国医学科学院北京协和医学院肿瘤医院深圳医院
创建时间:
2024-11-16
搜集汇总
数据集介绍

构建方式
Camelyon+数据集的构建基于Camelyon-16和Camelyon-17数据集的重新处理,通过去除低质量的切片、修正错误的标签以及为先前未发布的测试集提供专家像素级注释,从而提升了数据集的质量和临床相关性。具体而言,研究团队筛选并移除了模糊、染色不良、治疗相关伪影或阳性不明确的切片,并将Camelyon-16的二分类标签扩展为四分类系统,包括负性、微转移、宏转移和孤立肿瘤细胞(ITC),以促进两个数据集的合并。最终,通过这些修正和扩展,形成了包含1,350张全切片图像的Camelyon+数据集。
使用方法
Camelyon+数据集适用于多种计算病理学任务,特别是基于多实例学习(MIL)的深度学习策略,用于预测淋巴结转移类型。研究者可以使用数据集中的全切片图像(WSIs)和相应的标签进行模型训练和验证,利用提供的特征文件进行快速实验和对比分析。数据集的公开性和详细的使用说明,使得研究者能够轻松地进行数据下载、处理和模型评估,为计算病理学领域的进一步研究提供了坚实的基础。
背景与挑战
背景概述
Camelyon+数据集是在计算病理学(CPath)领域中,由Xitong Ling等研究人员于2024年重新处理和扩展的。该数据集基于Camelyon-16和Camelyon-17数据集,旨在解决乳腺癌淋巴结转移检测中的关键问题。通过去除低质量的切片、修正错误标签以及提供专家级别的像素级注释,Camelyon+不仅提升了数据集的质量和临床相关性,还将其从二分类任务升级为四分类任务,包括负样本、微转移、宏转移和孤立肿瘤细胞(ITC)。这一改进显著推动了AI在病理学中的应用,特别是在全切片图像(WSI)分析方面,为病理特征提取和下游任务提供了更为丰富的基准。
当前挑战
Camelyon+数据集在构建过程中面临多项挑战。首先,病理图像的高分辨率和专业注释需求使得获取大规模精细注释数据集变得极为困难。其次,原始Camelyon数据集中存在图像质量差、治疗相关伪影以及标签错误等问题,这些问题在重新处理过程中需要逐一解决。此外,Camelyon+引入的四分类任务相较于传统的二分类任务更为复杂,特别是在处理类间不平衡问题上,如ITC类别的样本稀少,这增加了模型训练和评估的难度。最后,尽管Camelyon+提供了高质量的基准,但其长尾分布特性仍对模型的泛化能力和临床应用提出了新的挑战。
常用场景
经典使用场景
Camelyon+数据集在计算病理学领域中被广泛用于评估多种实例学习(MIL)方法,特别是在乳腺癌淋巴结转移检测方面。通过提供高质量的整片图像(WSIs)和精细的像素级注释,该数据集支持了从二分类到四分类任务的扩展,涵盖了从无转移、微小转移、宏观转移到孤立肿瘤细胞(ITC)的多种情况。这种多层次的分类任务使得研究人员能够更全面地评估和改进基于深度学习的病理图像分析模型。
解决学术问题
Camelyon+数据集通过提供经过专业病理学家校正的高质量图像和标签,解决了传统Camelyon数据集中存在的图像质量差、标签错误和注释不准确等问题。这不仅提高了模型训练和评估的可靠性,还推动了计算病理学领域中基础模型的发展,特别是在预训练特征提取器和多实例学习方法的评估方面。通过这种改进,Camelyon+数据集为病理图像分析提供了更为坚实的基础,促进了该领域的学术研究和技术进步。
实际应用
在实际应用中,Camelyon+数据集为开发和验证基于人工智能的病理诊断工具提供了宝贵的资源。例如,医疗机构可以利用该数据集训练和优化算法,以辅助病理学家在乳腺癌淋巴结转移的检测中提高诊断的准确性和效率。此外,该数据集还可用于开发远程病理诊断系统,通过数字化病理图像的分析,支持偏远地区的医疗诊断服务,从而提升整体医疗水平。
数据集最近研究
最新研究方向
在乳腺癌病理学领域,Camelyon+数据集的最新研究方向主要集中在提升病理图像分析的准确性和可靠性。通过重新处理和校正Camelyon-16和Camelyon-17数据集中的1,399张全切片图像(WSIs),研究团队不仅去除了低质量的切片,还修正了标签错误,并提供了专家级别的像素级注释。这一改进将原本的二分类任务升级为四分类任务,包括负性、微转移、宏转移和孤立肿瘤细胞(ITC)。此外,研究还重新评估了预训练的病理特征提取器和多种实例学习(MIL)方法,为AI在病理学中的应用提供了更为精确的基准。这些努力不仅推动了AI在病理学中的发展,也为未来的研究奠定了坚实的基础。
相关研究论文
- 1Towards a Comprehensive Benchmark for Pathological Lymph Node Metastasis in Breast Cancer Sections中国医学科学院北京协和医学院肿瘤医院深圳医院 · 2024年
以上内容由遇见数据集搜集并总结生成



