five

NCT-CRC-HE

收藏
arXiv2024-09-18 更新2024-09-20 收录
下载链接:
https://zenodo.org/records/1214456
下载链接
链接失效反馈
官方服务:
资源简介:
NCT-CRC-HE数据集是由瑞士联邦理工学院和AI Witchlabs有限公司创建的,主要用于结直肠癌的组织病理学图像分析。该数据集包含100,000个训练图像块和7,180个测试图像块,涵盖九种组织类别。数据集的创建过程包括从全切片图像中提取224×224像素的图像块,并使用Macenko方法进行颜色归一化。该数据集广泛应用于深度学习模型在组织分类和患者生存预测等任务中的训练和评估,旨在解决组织病理学图像分析中的偏差问题。

The NCT-CRC-HE dataset was developed by the Swiss Federal Institute of Technology and AI Witchlabs Co., Ltd., and is primarily intended for histopathological image analysis of colorectal cancer. It comprises 100,000 training image patches and 7,180 test image patches, spanning nine tissue categories. The dataset construction workflow includes extracting 224×224 pixel image patches from whole-slide images, and performing color normalization via the Macenko method. This dataset has been extensively applied to train and evaluate deep learning models for tasks including tissue classification and patient survival prediction, with the goal of mitigating bias in histopathological image analysis.
提供机构:
计算机视觉实验室,瑞士联邦理工学院,瑞士;AI Witchlabs有限公司,瑞士
创建时间:
2024-09-18
搜集汇总
数据集介绍
main_image_url
构建方式
NCT-CRC-HE数据集由两个独立部分组成:NCT-CRC-HE-100K包含100,000个训练图像块,提取自86张全切片图像;CRC-VAL-HE-7K包含7,180个测试图像块,来自50名独立患者。这些图像块来自国家肿瘤疾病中心(NCT)和曼海姆大学医学中心(UMM)的病理档案。所有图像均采用Macenko方法进行归一化处理,分辨率为224×224像素。数据集公开可用,下载地址为https://zenodo.org/records/1214456。
使用方法
NCT-CRC-HE数据集适用于开发和验证基于深度学习的组织分类和患者生存预测模型。研究者可以使用该数据集训练模型,并通过CRC-VAL-HE-7K测试集评估模型性能。建议在使用前对数据进行详细分析,识别并处理存在的图像伪影和颜色偏差,以提高模型的鲁棒性和准确性。此外,数据集的公开可用性使得研究结果的可重复性得到保障。
背景与挑战
背景概述
NCT-CRC-HE数据集,由Andrey Ignatov和Grigory Malivenko于2024年创建,是用于结直肠癌组织病理学图像分析的重要资源。该数据集包含100,000个训练图像和7,180个测试图像,涵盖九种组织类别,广泛应用于组织分类和患者生存预测研究。其主要研究问题集中在深度学习模型在组织病理学图像分析中的应用,特别是这些模型是否受到图像处理和预处理过程中引入的低级图像属性的影响。NCT-CRC-HE数据集的发布极大地推动了数字病理学领域的发展,为研究人员提供了一个标准化的测试平台,以评估和改进基于深度学习的病理图像分析方法。
当前挑战
NCT-CRC-HE数据集在构建和应用过程中面临多项挑战。首先,数据集存在颜色归一化不当的问题,导致不同类别图像间存在显著的颜色偏差,这可能影响模型的分类准确性。其次,图像中普遍存在的JPEG压缩伪影,这些伪影在不同组织类别间不一致,可能被模型错误地用作分类特征。此外,部分图像由于动态范围处理错误而完全损坏,丧失了生物学意义,这进一步增加了数据集的复杂性。最后,训练集和验证集之间在颜色分布和图像质量上的不匹配,可能导致模型在实际应用中的泛化能力下降。这些挑战要求在未来的研究和应用中,必须对数据集进行更严格的预处理和质量控制。
常用场景
经典使用场景
NCT-CRC-HE数据集在数字病理学领域中被广泛用于组织分类和患者生存预测。其经典使用场景包括利用深度学习模型,如卷积神经网络(CNN)和变换器模型,对高分辨率显微照片中的组织区域进行自动分析。这些模型通过学习复杂的模式,能够识别细胞类型组成、细胞间相互作用等关键形态学特征,从而为临床诊断提供支持。
解决学术问题
NCT-CRC-HE数据集解决了数字病理学中的一个关键学术问题,即深度学习模型在处理不同实验室或国家采集的显微图像时可能存在的数据偏差。通过分析和揭示数据集中的特定偏差,如颜色归一化不当、JPEG压缩伪影和图像动态范围处理错误,该数据集帮助研究者理解这些偏差对模型性能的影响,并推动了图像归一化和数据预处理方法的发展。
实际应用
在实际应用中,NCT-CRC-HE数据集被用于开发和验证用于结直肠癌诊断的自动化工具。这些工具能够通过分析组织切片图像,辅助病理学家进行癌症分类、肿瘤分级和患者生存预测。通过减少人为误差和提高诊断效率,这些自动化系统有望在临床实践中发挥重要作用,特别是在大规模筛查和快速诊断场景中。
数据集最近研究
最新研究方向
在数字病理学领域,NCT-CRC-HE数据集的最新研究方向主要集中在数据集的偏差分析和模型性能优化上。研究者们发现,该数据集存在显著的颜色归一化不当、JPEG压缩伪影以及图像动态范围处理错误等问题,这些因素可能导致模型性能的偏差。因此,当前的研究重点在于通过改进数据预处理技术,如更精确的颜色归一化和压缩伪影的消除,来提高模型的泛化能力和分类准确性。此外,研究还探索了使用更简单的模型架构(如EfficientNet-B0)来避免过拟合,从而在保持高准确率的同时减少模型的复杂性。这些研究不仅提升了病理图像分析的准确性,也为未来设计更鲁棒的深度学习模型提供了宝贵的经验。
相关研究论文
  • 1
    NCT-CRC-HE: Not All Histopathological Datasets Are Equally Useful计算机视觉实验室,瑞士联邦理工学院,瑞士;AI Witchlabs有限公司,瑞士 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作