CAMELYON-NEW

github2024-05-04 更新2024-05-31 收录

下载链接：

https://github.com/lingxitong/CAMELYON_BENCHMARK

下载链接

链接失效反馈

官方服务：

资源简介：

CAMELYON-NEW数据集是为了改进病理图像分类和分析中的MIL方法而创建的。该数据集通过移除问题幻灯片、修正标注问题、合并CAMELYON-16/17数据集并添加新幻灯片来组织一个更大、更平衡的数据集。此外，该数据集还用于评估主流MIL方法和特征提取器，并使用更全面的评估指标来评估不同方法。

The CAMELYON-NEW dataset was created to enhance the MIL (Multiple Instance Learning) methods in the classification and analysis of pathological images. This dataset organizes a larger and more balanced collection by removing problematic slides, correcting annotation issues, merging the CAMELYON-16/17 datasets, and adding new slides. Furthermore, it is utilized to evaluate mainstream MIL methods and feature extractors, employing more comprehensive evaluation metrics to assess different approaches.

创建时间：

2024-03-16

原始信息汇总

数据集概述

数据集名称

CAMELYON_BENCHMARK

数据集目的

建立一个用于评估Multiple Instance Learning (MIL) 方法的基准（BENCHMARK）。

数据集改进措施

移除有问题的幻灯片。
修正有问题的注释。
合并CAMELYON-16/17数据集并添加新幻灯片，组织一个更大、更平衡的CAMELYON-NEW数据集。
在CAMELYON-NEW数据集上评估主流MIL方法和特征提取器。
使用更全面的评估指标来评估不同方法。

CAMELYON-NEW数据集特点

应用平衡的数据集分割。
下载链接：BAIDU-PAN-LINK 和 GOOGLE-PAN-LINK。

基准方法

MEAN_MIL, MAX_MIL, AB_MIL, TRANS_MIL, DS_MIL, CLAM_MIL, DTFD_MIL, RRT_MIL, WIKG_MIL。

特征编码器

VIT_S (IMAGENT-PRETRAINED), PLIP (WSI-Contrastive-Learning), UNI (WSI-PRETRAINED)。

实验设置

在20X放大倍数下获取补丁。
保持原始实现的超级参数设置。
使用统一、平衡的数据集分割。

结果

在REFINE-CAMELYON-17（4类）上，评估了多种MIL方法的性能，包括MEAN, MAX, AB, TRANS, DS, CLAM-SB, CLAM_MB, RRT, WIKG等，使用VIT_S, PLIP, UNI, RESNET50作为特征编码器。

搜集汇总

数据集介绍

构建方式

在病理图像分类与分析领域，传统的多实例学习（MIL）方法在CAMELYON-16/17数据集上存在诸多问题，如部分切片质量不佳、像素级标注不准确以及缺乏统一的评估标准。为解决这些问题，CAMELYON-NEW数据集通过移除有问题的切片、修正标注错误，并将CAMELYON-16/17的修正版本合并，形成了一个全新的基准数据集。此外，该数据集还引入了更全面的评估指标，以确保不同MIL方法的公平比较。

使用方法

CAMELYON-NEW数据集可通过提供的百度网盘和谷歌网盘链接进行下载。使用时，研究者可以选择不同的MIL方法和特征提取器进行实验，如MEAN_MIL、MAX_MIL、AB_MIL等。数据集的平衡分割策略确保了实验的公平性，而全面的评估指标则有助于更准确地衡量各方法的性能。通过该数据集，研究者可以深入探索病理图像分类与分析领域的前沿技术。

背景与挑战

背景概述

在病理图像分类与分析领域，多实例学习（MIL）方法已成为主流技术。然而，现有的CAMELYON-16/17数据集存在若干问题，如部分切片质量不佳、像素级标注不够精确，且缺乏统一的分割和评估标准。为解决这些问题，研究人员创建了CAMELYON+数据集，旨在通过移除问题切片、修正标注错误，并引入更全面的评估指标，为MIL方法提供一个统一的基准。该数据集的构建不仅提升了病理图像分析的准确性，还为相关领域的研究提供了更为可靠的实验平台。

当前挑战

CAMELYON+数据集的构建面临多重挑战。首先，移除问题切片和修正标注错误需要大量的人力和时间投入，以确保数据集的质量。其次，统一数据集分割和评估标准是一个复杂的过程，涉及多种MIL方法的比较与验证。此外，如何确保新数据集在不同特征提取器上的表现一致性，也是一个亟待解决的问题。最后，随着病理图像分析技术的快速发展，如何持续更新和扩展CAMELYON+数据集，以适应新的研究需求，也是一项长期的挑战。

常用场景

经典使用场景

CAMELYON-NEW数据集在病理图像分类与分析领域中，主要用于评估多实例学习（MIL）方法的性能。通过提供经过校正的标注和去除问题切片，该数据集为MIL方法提供了一个更为统一和准确的基准。研究者可以利用此数据集对不同的MIL方法进行公平比较，从而推动病理图像分析技术的进步。

解决学术问题

CAMELYON-NEW数据集解决了CAMELYON-16/17数据集在标注不准确、切片问题以及缺乏统一评估标准等方面的学术问题。通过提供一个更为精确和一致的基准，该数据集有助于推动多实例学习方法在病理图像分类中的研究，并为相关领域的学术研究提供了坚实的基础。

实际应用

在实际应用中，CAMELYON-NEW数据集可用于开发和验证病理图像分析算法，特别是在癌症检测和诊断领域。通过提供高质量的病理图像数据，该数据集有助于提升自动化病理分析系统的准确性和可靠性，从而在临床实践中辅助医生进行更精准的诊断。

数据集最近研究