five

1aurent/LC25000

收藏
Hugging Face2024-05-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/1aurent/LC25000
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含25,000张彩色图像,分为5个类别,每个类别有5,000张图像。所有图像的大小为768 x 768像素,格式为jpeg。

This dataset comprises 25,000 color images, divided into 5 categories with 5,000 images per category. All images have a resolution of 768 × 768 pixels and are in JPEG format.
提供机构:
1aurent
原始信息汇总

LC25000: Lung and Colon Histopathological Image Dataset

数据集描述

  • 特征:

    • image: 图像数据
    • organ: 器官分类,包括 lung(肺)和 colon(结肠)
    • label: 病理分类,包括 benign(良性)、adenocarcinomas(腺癌)和 squamous carcinomas(鳞状细胞癌)
  • 分割:

    • train: 训练集,包含 25000 个样本,大小为 1581800190 字节
  • 数据集大小:

    • 下载大小: 1125348716 字节
    • 数据集大小: 1581800190 字节
  • 标签:

    • biology, cancer
  • 大小分类:

    • 10K<n<100K
  • 许可证:

    • unlicense
  • 任务分类:

    • image-classification
  • Papers with Code ID:

    • lc25000

详细描述

该数据集包含 25,000 张彩色图像,分为 5 个类别,每个类别 5,000 张图像。所有图像大小为 768 x 768 像素,格式为 jpeg。

引用

bibtex @misc{borkowski2019lung, title = {Lung and Colon Cancer Histopathological Image Dataset (LC25000)}, author = {Andrew A. Borkowski and Marilyn M. Bui and L. Brannon Thomas and Catherine P. Wilson and Lauren A. DeLand and Stephen M. Mastorides}, year = {2019}, eprint = {1912.12142}, archiveprefix = {arXiv}, primaryclass = {eess.IV} }

搜集汇总
数据集介绍
main_image_url
构建方式
LC25000数据集的构建是基于数字化病理学图像,旨在为肺癌和结直肠癌的医学图像分类提供标准化资源。该数据集收集了25000张768x768像素的彩色JPEG图像,涵盖了良性、腺癌和鳞状细胞癌三种病理类型,并进一步细分为肺和结肠两个器官类别。数据集的构建采用了图像的数字化处理和标准化分类标签的映射,确保了数据的一致性和可用性。
特点
LC25000数据集的特点在于其专注于肺癌和结直肠癌的病理学图像,为研究者提供了一个专业的图像分类数据集。数据集具有均衡的样本分布,每个类别包含5000张图像,有利于模型的泛化能力和分类精度的提升。此外,数据集遵循unlicense协议,使得使用者可以无限制地使用和分享这些图像资源,促进了学术交流和研究成果的共享。
使用方法
使用LC25000数据集时,用户需先从指定的数据文件中下载训练集。数据集包含图像文件和对应的标签信息,其中标签分为良性、腺癌和鳞状细胞癌三种类型,并区分了肺和结肠两个器官。用户可以根据具体的任务需求,将这些图像和标签用于深度学习模型的训练、验证和测试,以开发能够辅助病理学诊断的自动化系统。数据集的开放性和标准化使得其易于集成到现有的数据处理和模型训练流程中。
背景与挑战
背景概述
LC25000数据集,由Andrew A. Borkowski等研究人员于2019年构建,专注于肺癌和结直肠癌的病理学图像分析。该数据集的创建旨在推动医学图像分类的研究,尤其是在良性与两种主要类型癌症——腺癌与鳞状细胞癌之间的区分。LC25000包含25000张768x768像素的彩色图像,均来源于肺部和结肠组织的组织病理学切片,其均衡的样本分布为相关研究提供了宝贵资源。该数据集对医学图像处理、计算机视觉以及癌症诊断领域产生了显著影响,成为研究者探索深度学习在医学图像分析中应用的重要基石。
当前挑战
LC25000数据集面临的挑战主要包括:首先,医学图像分类的高复杂性要求算法具有极高的准确度和可靠性,这对数据集的质量和标注精度提出了严苛要求;其次,数据集构建过程中,确保图像的代表性、多样性和平衡性是一大难题,尤其是在不同类型的癌症之间保持样本的均衡分布;最后,隐私保护和数据安全性的问题在医学图像数据集中尤为突出,合规使用数据以确保患者隐私不被侵犯是数据集构建和使用中必须严格遵循的原则。
常用场景
经典使用场景
在医学影像分析的领域内,LC25000数据集的典型应用场景是对肺和结肠的病理图像进行分类。其包含的25000张图像,分为良性、腺癌和鳞状细胞癌三种类型,为研究者提供了一个丰富的资源,以训练和测试深度学习模型,从而实现对病理切片的自动分类。
实际应用
实际应用中,LC25000数据集已被广泛运用于开发辅助诊断系统,能够在医疗资源有限的环境中,为医生提供第二意见,特别是在癌症早期筛查和诊断中,其应用价值尤为显著。
衍生相关工作
基于LC25000数据集,研究者们已衍生出一系列相关工作,如改进图像识别算法、开发新的特征提取技术,以及构建多模态融合的病理图像分析模型,推动了医学图像分析领域的发展,并为未来的精准医疗研究奠定了基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作