plism-dataset
收藏Hugging Face2025-03-03 更新2025-03-04 收录
下载链接:
https://huggingface.co/datasets/owkin/plism-dataset
下载链接
链接失效反馈官方服务:
资源简介:
PLISM数据集是一个预处理后的医学图像数据集,用于特征提取。该数据集包含了91个.h5文件,每个文件包含16278个转换为numpy数组的图像。这些图像方便了特征提取的过程,但需要较大的存储空间,并且特征提取过程也需要一定的计算资源。
创建时间:
2025-02-19
搜集汇总
数据集介绍

构建方式
PLISM数据集的直接生成源自owkin/plism-dataset-tiles,其构建宗旨在于为特征提取提供更为便捷的方式。该数据集包含91个.h5文件,每个文件中包含16,278个转换为numpy数组的图像,这种存储形式便于恢复处理,但需225Go的存储空间。
特点
本数据集的特点在于其预处理形式,便于进行图像特征提取任务。图像以numpy数组的形式存储,使得在特征提取过程中能够维持数据的一致性和顺序性。此外,该数据集遵循CC BY 4.0许可,确保了数据的开放性和可用性。
使用方法
使用该数据集进行特征提取时,需先确保有足够的存储空间,并参照plismbench指南进行操作。数据集将生成91个文件夹,每个文件夹包含一个features.npy文件,该文件是一个numpy数组,包含了模型输出维度d和图像的深层次细节信息。在提取特征时,需注意存储和计算资源的需求,以便高效完成特征提取任务。
背景与挑战
背景概述
PLISM数据集,作为一种预处理后的数据集,直接源自owkin/plism-dataset-tiles。该数据集的构建旨在便利化特征提取流程,其包含了91个.h5文件,每个文件中包含16278个转换为numpy数组的图像。此数据集的创建,汇聚了Ochi等研究者的智慧,并在数字病理学领域中,为机器学习模型提供了跨设备、跨染色的组织学图像数据,推动了领域内域无关机器学习模型的研究。PLISM数据集的问世,不仅丰富了数字病理学领域的数据资源,也为相关研究的深入提供了坚实基础,其影响力由此可见一斑。
当前挑战
尽管PLISM数据集为研究者提供了极大的便利,但在使用过程中也面临一些挑战。首先,数据集在存储上对硬件有较高要求,225Go的存储空间以及下载时间成本均为使用前的必要考虑。其次,特征提取的过程对于计算资源的需求较大,如使用ViT-B模型进行特征提取,需要约10Gb的存储空间以及1h30的计算时间。这些挑战不仅考验着研究者的技术能力,也对其研究资源的配置提出了更高的要求。
常用场景
经典使用场景
PLISM数据集,作为数字病理学领域的重要资源,其经典使用场景在于特征提取的预处理。该数据集由91个.h5文件构成,每个文件包含16,278个转换为numpy数组的图像,为研究者提供了便捷的特征提取途径,进而可应用于深度学习模型的训练与评估。
解决学术问题
该数据集解决了数字病理学中模型泛化能力不足的问题,通过提供多设备、多染色的注册图像,使得学术研究者能够构建出域无关的机器学习模型,这对于提升模型的鲁棒性和准确性具有重要的学术意义。
衍生相关工作
PLISM数据集的发布,催生了一系列相关研究工作,如基于该数据集的模型基准测试、域自适应学习策略的研究,以及模型压缩与加速方法的发展,这些工作进一步推动了数字病理学领域的技术进步。
以上内容由遇见数据集搜集并总结生成



