PatchCamelyon-C 和 LocalTCT-C

arXiv2022-06-30 更新2024-06-21 收录

下载链接：

https://github.com/superjamessyx/robustness_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

本研究介绍了两个用于评估深度神经网络对数字病理图像中常见腐败的鲁棒性的基准数据集：PatchCamelyon-C和LocalTCT-C。这些数据集通过在验证图像中注入九种常见腐败类型来生成，每种腐败类型有五个严重程度级别。数据集的创建旨在解决模型在面对图像腐败时的性能下降问题，特别是在数字病理图像分析领域。通过这些数据集，研究者可以评估和改进模型在实际应用中的稳定性和可靠性，尤其是在医疗诊断等关键领域。

This study presents two benchmark datasets, PatchCamelyon-C and LocalTCT-C, for assessing the robustness of deep neural networks against common corruptions in digital pathological images. Both datasets are generated by introducing nine common corruption types into validation images, with five severity levels for each corruption type. These datasets are developed to address the performance degradation of models when encountering image corruptions, especially in the domain of digital pathological image analysis. Using these datasets, researchers can evaluate and improve the stability and reliability of models in real-world applications, particularly in high-stakes fields such as medical diagnosis.

提供机构：

浙江大学计算机科学与技术学院西湖大学工程学院

创建时间：

2022-06-30

搜集汇总

数据集介绍

构建方式

在数字病理学领域，深度神经网络常因复杂的成像流程（如组织处理、染色、扫描等）而面临图像退化挑战。为系统性评估模型对此类扰动的鲁棒性，研究团队基于PatchCamelyon和LocalTCT两个大规模多中心数据集的验证集，通过注入九种常见病理图像扰动（涵盖数字化压缩、模糊、色彩偏差及染色伪影四大类），每种扰动包含五个严重等级，最终构建了名为PatchCamelyon-C和LocalTCT-C的基准数据集。所有扰动均通过轻量级图像处理函数实现，可便捷地嵌入数据加载流程，兼顾了存储效率与可移植性。

特点

该数据集的核心特色在于其临床相关性与多维评估能力。九种扰动类型（如JPEG压缩、像素化、散焦模糊、运动模糊、亮度/饱和度/色相变化、标记及气泡伪影）均源自真实病理影像中的常见退化场景，且经病理学专家验证，多数扰动图像在保留诊断信息的同时具有现实出现可能性。此外，数据集配套设计了三种评估指标：分类误差（CE）衡量整体预测准确率下降，相对分类误差（rCE）量化相对于干净图像的性能退化比率，而置信度排序误差（CEC）则创新性地评估模型置信度随扰动严重程度递增时的排序合理性，填补了病理图像置信度鲁棒性评估的空白。

使用方法

该数据集的使用方式高度灵活且易于集成。研究者可将预训练模型的验证集直接替换为PatchCamelyon-C或LocalTCT-C，通过内置的扰动函数（以可调用函数形式提供）在数据加载时动态生成扰动图像，从而避免存储大量冗余数据。评估时，需在45种扰动组合（9种类型×5个等级）上计算CE、rCE及CEC三项指标，全面衡量模型在预测准确性和置信度稳定性两方面的鲁棒性。实验表明，该基准的评估结果与模型在真实测试集上的泛化表现具有更高相关性（皮尔逊相关系数从−0.02提升至0.45），因而可作为筛选高鲁棒性模型的有效工具。

背景与挑战

背景概述

在数字病理学领域，深度神经网络（DNN）在计算机视觉任务中取得了显著进展，然而其面对输入图像损坏时的脆弱性逐渐暴露。由于病理图像的成像过程复杂，涉及组织处理、切片、染色、扫描及存储等环节，常引入比自然图像更严重的损坏，且病理图像中类间差异细微，决策边界对细节高度敏感，使得模型更易受干扰。2022年，由浙江大学计算机科学与技术学院与西湖大学工学院的Yunlong Zhang、Yuxuan Sun等研究人员共同提出了PatchCamelyon-C和LocalTCT-C两个基准数据集，旨在系统评估DNN在病理图像常见损坏下的鲁棒性。该研究聚焦于九种常见损坏类型（如JPEG压缩、模糊、颜色变化及染色伪影），并设计了五种严重级别，以模拟真实临床场景中的图像退化。这一基准的建立，不仅为病理图像分析模型的鲁棒性评估提供了标准化工具，还揭示了现有模型在损坏图像上错误率翻倍、置信度估计不可靠等关键问题，对推动临床诊断系统的可靠性具有重要影响力。

当前挑战

该数据集面临的核心挑战包括：首先，在领域问题层面，数字病理学中DNN对图像损坏的鲁棒性亟待提升，现有模型在损坏图像上的错误率约为干净图像的两倍（相对损坏误差rCE介于1.8至2.8），且置信度排序严重不可靠（置信度损坏误差CEC高达35%至55%），这直接威胁临床诊断的准确性。其次，在构建过程中，需确保所设计的九种损坏类型（如数字化伪影、模糊、颜色偏移及染色标记）既贴近真实病理场景，又能保留诊断关键信息，经专家评估后，约94%的损坏图像被认为具有临床现实性，且约90%可被正确识别。此外，验证集与测试集之间误差的低相关性（Pearson相关系数低至-0.02）暴露了传统评估方法的局限性，而该基准将相关性提升至0.45，但如何进一步优化损坏模拟的多样性及严重级别的临床相关性，仍是构建更全面鲁棒性评估体系的关键挑战。

常用场景

经典使用场景

在数字病理学领域，深度学习模型常因图像质量退化而性能骤降，PatchCamelyon-C与LocalTCT-C数据集应运而生，成为评估模型对常见病理图像损坏鲁棒性的标准基准。研究者通过向原始验证集中注入九类典型损坏（如JPEG压缩、模糊、色彩偏移及染色伪影），并设置五级严重程度，系统性地模拟临床实践中可能遭遇的图像退化场景。该数据集最经典的使用场景是作为模型鲁棒性测试平台，用于衡量不同深度神经网络在损坏图像上的分类精度与置信度稳定性，从而揭示模型在非理想成像条件下的真实表现。

解决学术问题

该数据集核心解决了数字病理学中模型鲁棒性评估缺失的学术痛点。以往研究多聚焦于清洁图像上的性能提升，却忽视了临床实际中图像损坏对诊断系统的致命影响。通过引入两类分类指标（CE与rCE）和一项置信度排序指标（CEC），该基准首次系统量化了损坏图像对预测精度与置信度可靠性的双重冲击。实验表明，模型在损坏图像上的错误率近乎翻倍，且置信度排序失效比例高达35%至55%，这一发现深刻揭示了现有模型在临床部署前的脆弱性，为后续鲁棒性优化提供了明确方向与量化标尺。

衍生相关工作

该数据集衍生了一系列关于病理图像鲁棒性的创新研究。受到自然图像领域损坏基准（如ImageNet-C）的启发，该工作首次将系统化损坏注入范式引入数字病理学，催生了针对染色伪影（如标记笔迹与气泡）的专项鲁棒性分析。后续工作可基于此基准探索数据增强策略（如风格迁移）对损坏鲁棒性的改善效果，或设计新型损失函数以同时优化预测精度与置信度排序。此外，该基准的低验证-测试相关性发现，也推动了跨中心泛化能力评估方法的发展，例如通过损坏模拟替代传统验证集来更可靠地预判模型在未知医院的诊断表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集