临床病理学基准数据集

Name: 临床病理学基准数据集
Creator: 西奈山伊坎医学院
Published: 2024-07-12 00:16:37
License: 暂无描述

arXiv2024-07-12 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2407.06508v3

下载链接

链接失效反馈

官方服务：

资源简介：

临床病理学基准数据集由西奈山伊坎医学院创建，包含与临床相关的病理切片数据，涉及多种癌症诊断和生物标志物。数据集大小为1998条，来源于两家医疗机构的标准医院操作过程中生成的数据。数据集的创建过程涉及从病理信息系统中提取结构化报告，并进行详细的临床相关性分析。该数据集主要用于评估和优化病理学基础模型的性能，特别是在疾病检测、生物标志物预测和治疗结果预测等临床任务中。

The clinicopathological benchmark dataset was developed by the Icahn School of Medicine at Mount Sinai. It encompasses clinically relevant pathological slide data covering multiple cancer diagnoses and biomarkers. Comprising 1998 entries, the dataset is derived from data generated during standard hospital operational procedures at two medical institutions. The dataset creation workflow included extracting structured reports from pathology information systems and conducting detailed clinical correlation analyses. This dataset is primarily intended for evaluating and optimizing the performance of pathology-focused foundational models, especially for clinical tasks such as disease detection, biomarker prediction, and treatment outcome prediction.

提供机构：

西奈山伊坎医学院

创建时间：

2024-07-09

搜集汇总

数据集介绍

构建方式

该数据集的构建方法涉及收集来自两家医疗中心的标准医院操作过程中产生的临床切片。这些切片与临床相关的终点相关联，包括癌症诊断和一系列在标准医院操作中生成的生物标志物。切片在20倍放大倍率下提取组织块，并使用特定的基础模型嵌入到特征表示中。每个切片被转换为二维矩阵，其中每一行对应于切片中的一个块，列包含特征。该向量化切片是GMA模型的输入，该模型将块表示合并为切片级表示，然后线性投影到类分数。为了估计泛化性能，使用了蒙特卡洛交叉验证策略。

特点

该数据集的特点在于它包括了来自两家不同医疗中心的标准医院操作过程中产生的临床数据，涵盖了多种器官和疾病的相关任务。数据集包括三种广泛的任务类型：疾病检测、生物标志物预测和治疗结果预测。此外，数据集还包含了各种疾病指征和解剖部位的数据。

使用方法

使用该数据集的方法包括使用GMA模型对每个切片进行特征表示，然后使用线性分类器进行分类。为了评估模型性能，使用了蒙特卡洛交叉验证策略。此外，还可以使用其他下游任务，如组织分类、粗分割、标注、检索和视觉问答等，来评估模型的表示能力。

背景与挑战

背景概述

在医学影像分析领域，特别是在病理学中，人工智能的应用日益增多。深度学习技术的发展，尤其是自监督学习（Self-Supervised Learning, SSL）的兴起，为病理学基础模型的训练提供了新的可能性。临床病理学基准数据集的创建，旨在为这些模型提供一个评估平台，以促进其在临床相关任务中的应用。该数据集由Icahn School of Medicine at Mount Sinai和Memorial Sloan Kettering Cancer Center的研究人员创建，收集了来自两个医疗中心的临床切片数据，涵盖了包括癌症诊断在内的临床相关终点和生物标志物。这一数据集的推出，对于计算病理学的研究具有重要意义，有助于弥合研究与应用之间的差距，并为未来模型的训练和应用提供了宝贵的数据资源。

当前挑战

尽管自监督学习在病理学领域显示出巨大的潜力，但仍然面临着一些挑战。首先，与自然图像相比，病理学模型训练数据集相对较小，尤其是在数字病理学尚未广泛应用的情况下。其次，数字全切片图像（WSI）的尺寸巨大，对分析方法和硬件要求提出了挑战。此外，现有的许多病理学模型是在自然图像上预训练的，而不是在WSI上。使用SSL训练病理学图像编码器，可以避免对标签的依赖，但需要考虑组织异质性等因素。最后，SSL模型在临床任务上的下游性能评估，需要更多来自不同机构的临床数据，以评估其泛化能力。

常用场景

经典使用场景

临床病理学基准数据集主要用于评估和比较不同病理学基础模型的性能，这些模型是通过自监督学习算法在大规模临床病理数据集上训练得到的。该数据集涵盖了多个器官和疾病，包括癌症诊断和标准医院操作中产生的各种生物标志物。研究者可以利用这些数据集系统地评估公开的病理学基础模型，并深入了解训练新模型和选择合适预训练模型的最佳实践。

解决学术问题

该数据集解决了在临床病理学领域缺乏大型数据集和计算基础设施的问题，从而使得大规模自监督学习实验仅在大型机构中可行。此外，数字全切片图像（WSI）的尺寸远大于其他图像模态，这给图像分析和硬件要求带来了挑战。该数据集提供了一个包含多个机构生成的临床数据的平台，用于评估病理学基础模型在临床相关任务上的性能，从而促进了对病理学基础模型的研究和开发。

衍生相关工作

临床病理学基准数据集衍生了多个相关工作，包括对自监督学习算法的研究、对病理学基础模型性能的比较和分析、以及对临床病理学领域计算模型开发和应用的研究。这些相关工作有助于推动病理学领域的计算模型研究和应用，并为未来的研究和开发提供了重要的参考和启示。

以上内容由遇见数据集搜集并总结生成