five

HISTOPANTUM

收藏
arXiv2024-09-26 更新2024-09-27 收录
下载链接:
https://github.com/mostafajahanifar/HistoDomainBed
下载链接
链接失效反馈
官方服务:
资源简介:
HISTOPANTUM数据集是由华威大学计算机科学系组织图像分析中心创建的,用于泛癌肿瘤检测的大型数据集。该数据集包含281,142张图像,涵盖结直肠癌、子宫癌、卵巢癌和胃癌四种癌症类型。数据集的创建过程包括从TCGA项目中获取40张全切片图像,并由经验丰富的病理学家进行肿瘤和非肿瘤区域的标注。该数据集主要用于评估和提升计算病理学中领域泛化算法的效果,特别是在面对不同数据分布时的模型性能。

The HISTOPANTUM dataset is a large-scale resource developed for pan-cancer tumor detection, created by the Computational Image Analysis Center under the Department of Computer Science, University of Warwick. It contains 281,142 images covering four cancer types: colorectal cancer, uterine cancer, ovarian cancer, and gastric cancer. The dataset construction process involved acquiring 40 whole-slide images from The Cancer Genome Atlas (TCGA) project, followed by annotation of tumor and non-tumor regions by experienced pathologists. This dataset is primarily used to evaluate and enhance the performance of domain generalization algorithms in computational pathology, particularly the model performance when facing varying data distributions.
提供机构:
华威大学计算机科学系组织图像分析中心
创建时间:
2024-09-26
搜集汇总
数据集介绍
main_image_url
构建方式
HISTOPANTUM数据集的构建基于对四种不同癌症类型(结直肠癌、子宫癌、卵巢癌和胃癌)的全面采样。研究团队从TCGA项目中获取了每种癌症类型的40张全切片图像(WSIs),并确保样本涵盖多种肿瘤亚型、性别、种族和中心,以增强数据集的多样性。随后,经验丰富的病理学家对这些切片中的肿瘤和非肿瘤区域进行了细致标注,从而提取出肿瘤和非肿瘤的图像块,形成了包含281,142个图像块的HISTOPANTUM数据集。每个图像块的分辨率为512×512像素,并在训练和评估过程中调整为224×224像素。
特点
HISTOPANTUM数据集的主要特点在于其广泛的多中心和多类型癌症覆盖,确保了数据的高度多样性和代表性。此外,该数据集通过专业的病理学家标注,确保了标签的准确性和可靠性。数据集中的图像块经过标准化处理,以适应深度学习模型的输入要求。值得注意的是,HISTOPANTUM数据集不包含后验偏移,因为肿瘤检测的标注过程是客观的,排除了主观因素的影响。
使用方法
HISTOPANTUM数据集主要用于泛癌肿瘤检测任务的基准测试。研究者可以使用该数据集来评估和比较不同领域泛化(DG)算法在处理多中心和多类型癌症数据时的性能。使用方法包括将数据集划分为训练集、验证集和测试集,采用交叉验证策略进行模型训练和评估。此外,数据集还支持低数据预算场景下的测试,通过子采样生成较小规模的数据集,以评估算法在数据稀缺情况下的表现。
背景与挑战
背景概述
HISTOPANTUM数据集由Neda Zamanitajeddina、Mostafa Jahanifar等研究人员于2024年创建,隶属于英国华威大学计算机科学系的Tissue Image Analytics中心。该数据集旨在解决计算病理学(CPath)任务中深度学习模型在未见数据上的性能下降问题,特别是由于领域偏移(Domain Shift)导致的性能下降。HISTOPANTUM数据集包含超过28万张图像,涵盖四种癌症类型,旨在作为未来研究的基准。该数据集的引入填补了CPath领域中领域泛化(Domain Generalization, DG)算法系统评估的空白,为研究人员提供了选择合适DG方法的宝贵指导。
当前挑战
HISTOPANTUM数据集在构建过程中面临的主要挑战包括:1) 领域偏移问题,即模型在源域数据上训练但在目标域数据上测试时性能显著下降;2) 数据多样性问题,确保数据集包含多种癌症类型、性别、种族和中心,以提高模型的泛化能力;3) 数据标注的主观性,特别是在有丝分裂检测等任务中,不同标注者可能对相同数据赋予不同标签。此外,数据集的构建还需要克服不同中心使用不同扫描设备和染色程序带来的颜色和纹理差异,这些差异引入了协变量偏移(Covariate Shift)。
常用场景
经典使用场景
HISTOPANTUM数据集在计算病理学领域中被广泛用于评估域泛化算法的效果。其经典使用场景包括在不同癌症类型和不同扫描设备条件下,对肿瘤检测任务进行基准测试。通过提供多样化的病理图像,该数据集能够有效评估算法在未见过的数据分布上的泛化能力,特别是在处理因设备差异导致的颜色和纹理变化等协变量偏移时。
实际应用
在实际应用中,HISTOPANTUM数据集被用于训练和验证能够处理多种癌症类型和不同扫描设备差异的肿瘤检测算法。这些算法在临床环境中具有重要应用,能够提高病理图像分析的准确性和一致性,减少因设备和实验室差异导致的误差。此外,该数据集还支持开发能够在资源有限的环境中有效运行的算法,从而促进计算病理学技术的普及和应用。
衍生相关工作
HISTOPANTUM数据集的发布催生了一系列相关的经典工作,特别是在域泛化算法的研究和应用方面。例如,基于该数据集的研究展示了自监督学习和染色增强技术在提升模型泛化能力方面的显著效果。此外,该数据集还促进了多种域泛化算法的基准测试和比较研究,推动了计算病理学领域中算法的标准化和优化。这些工作不仅提升了现有算法的性能,还为未来的研究提供了宝贵的参考和指导。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作