plism-dataset

Hugging Face2025-03-03 更新2025-03-04 收录

下载链接：

https://huggingface.co/datasets/owkin/plism-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

PLISM数据集是一个预处理后的医学图像数据集，用于特征提取。该数据集包含了91个.h5文件，每个文件包含16278个转换为numpy数组的图像。这些图像方便了特征提取的过程，但需要较大的存储空间，并且特征提取过程也需要一定的计算资源。

创建时间：

2025-02-19

搜集汇总

数据集介绍

构建方式

PLISM数据集的直接生成源自owkin/plism-dataset-tiles，其构建宗旨在于为特征提取提供更为便捷的方式。该数据集包含91个.h5文件，每个文件中包含16,278个转换为numpy数组的图像，这种存储形式便于恢复处理，但需225Go的存储空间。

特点

本数据集的特点在于其预处理形式，便于进行图像特征提取任务。图像以numpy数组的形式存储，使得在特征提取过程中能够维持数据的一致性和顺序性。此外，该数据集遵循CC BY 4.0许可，确保了数据的开放性和可用性。

使用方法

使用该数据集进行特征提取时，需先确保有足够的存储空间，并参照plismbench指南进行操作。数据集将生成91个文件夹，每个文件夹包含一个features.npy文件，该文件是一个numpy数组，包含了模型输出维度d和图像的深层次细节信息。在提取特征时，需注意存储和计算资源的需求，以便高效完成特征提取任务。

背景与挑战

背景概述

PLISM数据集，作为一种预处理后的数据集，直接源自owkin/plism-dataset-tiles。该数据集的构建旨在便利化特征提取流程，其包含了91个.h5文件，每个文件中包含16278个转换为numpy数组的图像。此数据集的创建，汇聚了Ochi等研究者的智慧，并在数字病理学领域中，为机器学习模型提供了跨设备、跨染色的组织学图像数据，推动了领域内域无关机器学习模型的研究。PLISM数据集的问世，不仅丰富了数字病理学领域的数据资源，也为相关研究的深入提供了坚实基础，其影响力由此可见一斑。

当前挑战

尽管PLISM数据集为研究者提供了极大的便利，但在使用过程中也面临一些挑战。首先，数据集在存储上对硬件有较高要求，225Go的存储空间以及下载时间成本均为使用前的必要考虑。其次，特征提取的过程对于计算资源的需求较大，如使用ViT-B模型进行特征提取，需要约10Gb的存储空间以及1h30的计算时间。这些挑战不仅考验着研究者的技术能力，也对其研究资源的配置提出了更高的要求。

常用场景

经典使用场景

PLISM数据集，作为数字病理学领域的重要资源，其经典使用场景在于特征提取的预处理。该数据集由91个.h5文件构成，每个文件包含16,278个转换为numpy数组的图像，为研究者提供了便捷的特征提取途径，进而可应用于深度学习模型的训练与评估。

解决学术问题

该数据集解决了数字病理学中模型泛化能力不足的问题，通过提供多设备、多染色的注册图像，使得学术研究者能够构建出域无关的机器学习模型，这对于提升模型的鲁棒性和准确性具有重要的学术意义。

衍生相关工作

PLISM数据集的发布，催生了一系列相关研究工作，如基于该数据集的模型基准测试、域自适应学习策略的研究，以及模型压缩与加速方法的发展，这些工作进一步推动了数字病理学领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集