LC25000
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/tampapath/lung_colon_image_set
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为LC25000,包含25,000张彩色图像,分为5个类别,重点在于肺癌类别,包括肺腺癌、肺鳞状细胞癌和良性肺组织。该数据集符合HIPAA规定,图像被划分为训练集(60%)、验证集(20%)和测试集(20%)。总共有25,000张图像,其中15,000张属于肺癌类别。该数据集的任务是对肺癌组织图像进行多标签分类。
This dataset, named LC25000, consists of 25,000 color images across 5 categories, with a primary focus on lung cancer-related classes including lung adenocarcinoma, lung squamous cell carcinoma, and benign lung tissue. It complies with HIPAA regulations. The images are partitioned into a training set (60%), a validation set (20%), and a test set (20%). Out of the total 25,000 images, 15,000 belong to the lung cancer category. The core task of this dataset is multi-label classification of lung cancer tissue images.
搜集汇总
数据集介绍

构建方式
在数字病理学领域,高质量图像数据集的构建是推动机器学习算法发展的基石。LC25000数据集的构建始于从病理玻片中采集原始图像,共获取了750张肺组织图像(包括良性肺组织、肺腺癌和肺鳞状细胞癌各250张)以及500张结肠组织图像(良性结肠组织和结肠腺癌各250张)。这些图像均经过脱敏处理,符合HIPAA规范,确保了患者隐私安全。随后,研究团队利用Python编程语言将所有图像裁剪为768×768像素的正方形尺寸,以统一数据格式。为进一步扩充数据集规模,采用Augmentor软件包进行图像增强,通过随机左右旋转(最大25度)以及水平和垂直翻转等操作,最终将原始图像扩展至25,000张,形成五个平衡类别,每类包含5,000张图像。
特点
LC25000数据集在癌症病理图像资源中展现出显著优势。其核心特点在于规模庞大且类别均衡,涵盖肺与结肠两大高发癌种的五种组织类型:结肠腺癌、良性结肠组织、肺腺癌、肺鳞状细胞癌以及良性肺组织,每类均提供5,000张图像,为模型训练提供了充分的样本多样性。所有图像均以JPEG格式存储,分辨率统一为768×768像素,确保了数据的一致性与处理便捷性。此外,数据集严格遵循医疗数据伦理标准,经过脱标识验证,并公开免费提供,极大降低了人工智能研究者在获取高质量医学图像时的门槛。这种结构化设计使其成为机器学习,特别是深度学习在病理诊断领域应用的理想基准资源。
使用方法
对于致力于医学人工智能的研究者而言,LC25000数据集提供了清晰的使用路径。数据集以1.85 GB的压缩文件形式发布,解压后主目录包含肺与结肠两个图像子集。每个子集进一步按组织类别细分,例如结肠图像集中分为结肠腺癌与良性结肠组织文件夹,肺图像集则包含三种对应子类。用户可直接下载该数据集,并利用其进行图像分类、特征提取或生成对抗网络等机器学习任务的模型训练与验证。在实际应用中,研究者可依据任务需求,将图像划分为训练集、验证集与测试集,结合卷积神经网络等架构开发自动诊断算法。数据集的标准化格式与丰富样本支持端到端的模型构建,助力于肺癌与结肠癌的病理图像识别研究。
背景与挑战
背景概述
在人工智能与医学交叉领域,机器学习技术正逐步推动诊断病理学的革新。由Andrew A. Borkowski博士及其团队于2019年创建的LC25000数据集,旨在应对肺癌与结肠癌病理图像分析的迫切需求。该数据集由美国詹姆斯·A·哈利退伍军人医院与南佛罗里达大学病理学部门联合构建,聚焦于解决癌症组织病理图像分类的核心研究问题。作为首个公开的大规模肺癌与结肠癌组织病理图像资源,LC25000涵盖了五类组织样本,每类包含五千张经标准化处理的彩色图像,为深度学习模型训练提供了关键数据支撑,显著促进了数字病理学与精准医疗领域的发展。
当前挑战
LC25000数据集致力于解决组织病理图像自动分类的挑战,尤其在区分肺癌亚型(腺癌与鳞状细胞癌)及良性病变方面,模型需克服细胞形态多样性、染色差异及组织伪影等复杂视觉特征。构建过程中,团队面临原始图像稀缺的困境,仅基于有限样本通过旋转与翻转等增强技术扩增数据,可能引入潜在偏差;同时,确保图像符合HIPAA隐私标准并维持病理学有效性,需精细的脱敏与验证流程,这些因素共同构成了数据集在代表性、泛化能力及临床适用性方面的关键挑战。
常用场景
经典使用场景
在数字病理学领域,LC25000数据集为机器学习模型提供了丰富的组织病理学图像资源,其经典应用场景在于训练和验证深度学习算法,以自动识别肺癌和结肠癌的亚型。该数据集包含五类高分辨率彩色图像,涵盖了肺腺癌、肺鳞状细胞癌、良性肺组织、结肠腺癌和良性结肠组织,为研究者构建精准的分类模型奠定了坚实基础。通过大规模图像增强技术,数据集有效模拟了实际诊断中的形态变异,促进了模型在复杂病理特征下的泛化能力。
解决学术问题
LC25000数据集主要解决了医学人工智能研究中高质量标注数据稀缺的瓶颈问题,为癌症病理图像的自动诊断提供了标准化基准。它支持学术探索从传统手工特征提取向端到端深度学习方法的转变,显著提升了模型在区分恶性与良性组织、以及鉴别不同癌症亚型方面的准确性与鲁棒性。该数据集的公开可用性加速了跨机构合作研究,推动了病理学与计算机视觉的交叉融合,为早期癌症检测与个性化医疗策略的开发提供了关键数据支撑。
衍生相关工作
围绕LC25000数据集,衍生了一系列经典研究工作,主要集中在深度学习架构的优化与多模态融合分析。例如,研究者利用卷积神经网络(CNN)如ResNet、Inception等模型,在该数据集上实现了超过95%的分类准确率,验证了其作为基准测试的有效性。后续工作进一步探索了迁移学习、注意力机制以及生成对抗网络(GAN)在数据增强中的应用,扩展了数据集在弱监督学习与罕见病理检测中的价值。这些成果不仅丰富了癌症影像分析的方法论,也为其他医学图像数据集的构建提供了参考范式。
以上内容由遇见数据集搜集并总结生成



