LC25000

Name: LC25000
Creator: 计算机科学与工程系，城市大学，萨瓦尔，孟加拉国；电气工程与计算机科学系，密苏里大学，哥伦比亚，密苏里州，美国
Published: 2024-12-24 00:31:45
License: 暂无描述

arXiv2024-12-24 更新2024-12-25 收录

下载链接：

http://arxiv.org/abs/2412.17700v1

下载链接

链接失效反馈

官方服务：

资源简介：

LC25000数据集由25,000张高分辨率（768×768像素）的病理图像组成，涵盖了肺和结肠癌的多个类别，包括良性、腺癌和鳞状细胞癌。数据集源自1,250张符合HIPAA标准的图像，并通过Augmentor包进行扩充，确保了数据的多样性和平衡性。该数据集的创建旨在为深度学习模型提供一个全面的基准，用于肺和结肠癌的检测和分类。通过该数据集，研究者能够训练和验证其提出的改进残差注意力网络模型，以提高癌症诊断的准确性和一致性。

The LC25000 dataset consists of 25,000 high-resolution (768×768 pixels) pathological images covering multiple categories of lung and colon cancers, including benign, adenocarcinoma, and squamous cell carcinoma. Derived from 1,250 HIPAA-compliant original images, the dataset was augmented using the Augmentor package to ensure data diversity and balance. It was developed to provide a comprehensive benchmark for deep learning models in the detection and classification of lung and colon cancers. With this dataset, researchers can train and validate their proposed improved residual attention network models to enhance the accuracy and consistency of cancer diagnosis.

提供机构：

计算机科学与工程系，城市大学，萨瓦尔，孟加拉国；电气工程与计算机科学系，密苏里大学，哥伦比亚，密苏里州，美国

创建时间：

2024-12-24

搜集汇总

数据集介绍

构建方式

LC25000数据集由25,000张高分辨率的组织病理学图像组成，这些图像的分辨率为768×768像素，格式为JPEG。该数据集涵盖了肺和结肠癌的多个类别，包括良性、腺癌和鳞状细胞癌等。数据集的构建基于1,250张HIPAA合规的原始图像，通过使用Augmentor包进行数据增强，最终扩展为25,000张图像。这一增强过程确保了数据集在五个类别中的平衡分布，每个类别包含5,000张图像，从而为机器学习模型提供了丰富的训练资源，特别是在肺和结肠癌的检测与分类任务中。

特点

LC25000数据集的主要特点在于其高分辨率和多样化的类别分布。数据集中的图像经过精心增强，确保了在不同类别间的平衡性，从而提高了模型的泛化能力。此外，数据集的构建过程中采用了先进的图像增强技术，保留了原始组织特征，同时增强了数据集的鲁棒性。这些特点使得LC25000成为肺和结肠癌分类任务中的一个重要基准数据集，尤其适用于深度学习模型的训练与评估。

使用方法

LC25000数据集可用于训练和评估肺和结肠癌分类的深度学习模型。使用时，首先需要对图像进行预处理，包括调整大小至224×224像素，并应用最小-最大归一化技术以增强模型的稳定性。随后，数据集通常按照60%训练、20%验证和20%测试的比例进行划分。模型训练过程中，建议使用Adam优化器，并结合批量归一化和dropout等正则化技术，以提高模型的性能和泛化能力。最终，通过精度、敏感性、特异性等多项指标对模型进行评估，以确保其在实际应用中的可靠性。

背景与挑战

背景概述

LC25000数据集是由Diponkor Bala等人于2019年创建的，旨在支持肺和结肠癌的分类研究。该数据集包含了25,000张高分辨率的组织病理学图像，涵盖了肺和结肠癌的多种类别，包括良性、腺癌和鳞状细胞癌等。数据集的构建基于1,250张原始图像，并通过数据增强技术扩展至25,000张，以确保数据的多样性和平衡性。该数据集的主要研究目标是利用深度学习模型，特别是改进的残差注意力网络（MRANet），来提高肺和结肠癌的分类准确性。该数据集的发布对医学AI领域具有重要意义，尤其是在自动化癌症诊断方面，为研究人员提供了一个标准化的基准数据集。

当前挑战

LC25000数据集在构建和应用过程中面临多项挑战。首先，组织病理学图像的高变异性，包括组织形态、染色和成像条件的变化，导致数据集中的图像存在显著差异，这增加了分类任务的复杂性。其次，数据集的构建过程中，数据增强技术的应用虽然增加了数据的多样性，但也可能引入噪声，影响模型的泛化能力。此外，深度学习模型在医学图像分类中的可解释性问题仍然是一个挑战，尽管MRANet通过残差连接和注意力机制提高了模型的解释性，但如何在临床实践中更好地应用这些模型仍需进一步研究。最后，数据集的规模和复杂性要求高效的计算资源和优化算法，以确保模型训练的稳定性和高效性。

常用场景

经典使用场景

LC25000数据集在肺部和结直肠癌的分类任务中展现了其经典应用场景。该数据集包含了25,000张高分辨率的组织病理学图像，涵盖了肺部和结直肠癌的不同类别，如良性、腺癌和鳞状细胞癌等。通过深度学习模型，特别是基于残差注意力网络的MRANet模型，研究人员能够从这些图像中提取关键特征，实现对癌症类型的精准分类。这种应用不仅提高了诊断的准确性，还为医学影像分析提供了强大的工具。

实际应用

LC25000数据集在实际应用中展现了广泛的应用前景。在临床实践中，该数据集支持的深度学习模型可以辅助病理学家进行快速、准确的癌症诊断，特别是在资源有限的地区，能够显著提高诊断效率和准确性。此外，该数据集还可用于开发实时癌症检测系统，甚至可以集成到移动应用程序中，为发展中国家提供便捷的诊断工具。通过这些应用，LC25000数据集为改善患者治疗效果和提升医疗水平提供了重要支持。

衍生相关工作

LC25000数据集的发布催生了一系列相关的经典工作。许多研究者基于该数据集开发了多种深度学习模型，如卷积神经网络（CNN）、残差网络（ResNet）以及结合注意力机制的改进模型。例如，MRANet模型通过引入残差连接和注意力机制，显著提升了癌症分类的准确性。此外，其他研究如基于VGG16的模型、混合CNN-SVM模型等，也在该数据集上取得了优异的性能。这些工作不仅推动了医学影像分析技术的发展，还为未来的研究提供了丰富的参考和基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集