five

PAD-UFES-20

收藏
github2024-08-03 更新2024-08-05 收录
下载链接:
https://github.com/Compassy/SkinCancer-Detection-from-Smartphone-Imagery
下载链接
链接失效反馈
官方服务:
资源简介:
PAD-UFES-20数据集是一个全面的皮肤病变数据集合,通过巴西联邦大学圣埃斯皮里图州的皮肤病学和外科援助计划收集。该数据集包含2,298个样本,代表六种不同类型的皮肤病变,包括癌症和非癌症条件。每个样本包括临床图像和多达22个临床特征,提供丰富的分析信息。

The PAD-UFES-20 dataset is a comprehensive skin lesion collection gathered via the Dermatology and Surgical Assistance Program of the Federal University of Espírito Santo (UFES) in Brazil. It contains 2,298 samples representing six distinct types of skin lesions, covering both cancerous and non-cancerous conditions. Each sample includes clinical images and up to 22 clinical features, providing rich analytical information.
创建时间:
2024-07-18
原始信息汇总

皮肤癌智能手机影像检测数据集

数据集概述

PAD-UFES-20数据集是一个综合性的皮肤病变数据集,由巴西联邦大学Espírito Santo的皮肤病学和外科援助项目收集。该数据集包含2,298个样本,代表了六种不同类型的皮肤病变,包括癌症性和非癌症性病变。每个样本包含一个临床图像和最多22个临床特征,提供了丰富的分析信息。

数据集详情

诊断类型 样本数量 活检百分比
光化性角化病 (ACK) 730 24.4%
皮肤基底细胞癌 (BCC) 845 100%
恶性黑色素瘤 (MEL) 52 100%
皮肤黑色素细胞痣 (NEV) 244 24.6%
鳞状细胞癌 (SCC) 192 100%
脂溢性角化病 (SEK) 235 6.4%
总计 2298 58.4%

数据集下载

  • 文件名: PAD-UFES-20: 皮肤病变数据集,包含患者数据和临床图像,从智能手机收集.zip (3.35 GB)
  • 下载链接: 点击这里下载
  • SHA-256校验和: e8c7e17bac1698c97e44d4096ec20ac1b91c135285c1446b7b2e7ebbc9be933c

数据集要求

运行笔记本并重现结果需要以下依赖项:

  • Python 3.9+
  • TensorFlow 2.17
  • NumPy
  • Pandas
  • Matplotlib
  • scikit-learn
  • tqdm
  • cv2
  • patchify
  • imblearn

可以通过以下命令安装所需的包: bash pip install -r requirements.txt

文件结构

  • @Original.ipynb: 包含数据预处理、模型训练和评估代码的原始Jupyter笔记本。
  • @Skin_Cancer.ipynb: 包含数据预处理、模型训练和评估代码的主Jupyter笔记本(改进版)。
  • labeling.zip: PAD-UFES-20数据集的标注数据。
  • requirements.txt: 项目所需的包。

技术

  • 图像诊所: 详细分析和分类皮肤病变图像,包括元数据、皮肤癌类型和皮肤疾病分类,以及皮肤类型考虑。
  • 随机欠采样: 通过随机移除多数类样本,平衡不平衡数据集的技术。
  • Dullrazor算法: 用于检测和去除皮肤病变图像中毛发的预处理技术。
  • 图像增强: 通过应用各种变换来人工增加训练数据集大小的技术。
  • 迁移学习 (DenseNet121): 利用预训练模型解决新任务的机器学习技术。
  • U-Net架构: 常用于图像分割任务的卷积神经网络架构。
  • 图像分割: 根据特定特征或特征将图像分割成多个段或区域的技术。
  • 评估指标: 用于评估机器学习模型性能的指标,如准确性、精确度、召回率和F1分数。
  • 图像可视化 (GradCAM): 用于可视化深度学习模型预测中重要图像区域的技术。
  • 模型预测: 包括DenseNet121和U-Net模型的预测结果。
搜集汇总
数据集介绍
main_image_url
构建方式
PAD-UFES-20数据集通过巴西联邦大学Espírito Santo分校的皮肤病学和外科援助计划,收集了来自智能手机的临床图像和患者数据。该数据集包含2,298个样本,涵盖六种不同的皮肤病变类型,包括癌症性和非癌症性病变。每个样本不仅包含临床图像,还包含多达22个临床特征,为分析提供了丰富的信息。数据集的构建旨在通过详细的图像和临床特征,支持皮肤癌的早期检测和精确诊断。
特点
PAD-UFES-20数据集的显著特点在于其多样性和详细性。数据集涵盖了六种不同的皮肤病变类型,包括常见的皮肤癌类型如基底细胞癌(BCC)和鳞状细胞癌(SCC),以及非癌症性病变如光化性角化病(ACK)和脂溢性角化病(SEK)。每个样本不仅包含高分辨率的临床图像,还附有详细的临床特征,如病变的位置、大小和颜色等,这些特征为深度学习和计算机辅助诊断提供了丰富的数据基础。
使用方法
使用PAD-UFES-20数据集进行研究或开发时,首先需下载数据集并解压缩。随后,根据项目需求安装相应的Python依赖包,如TensorFlow、NumPy和Pandas等。数据集的文件结构清晰,包含原始数据、标签数据和预处理脚本。研究者可以通过Jupyter Notebook文件进行数据预处理、模型训练和评估。此外,数据集还提供了多种图像处理和增强技术,如Dullrazor算法和图像增强技术,以提高模型的泛化能力和诊断准确性。
背景与挑战
背景概述
皮肤癌作为一种全球性的健康问题,每年约有16万新病例,尤其在欧洲、美洲、澳大利亚和新西兰等地具有较高的发病率。在泰国,每年也有约300-400例新诊断的皮肤癌病例。皮肤癌主要由异常的皮肤细胞生长引起,常导致坏死性病变,多见于紫外线暴露区域。PAD-UFES-20数据集由巴西联邦大学圣埃斯皮里图分校的皮肤病学和外科援助项目收集,包含了2,298个样本,涵盖了六种不同类型的皮肤病变,包括癌症性和非癌症性病变。每个样本包含临床图像和多达22个临床特征,为分析提供了丰富的信息。该数据集的创建旨在通过卷积神经网络和迁移学习技术,提高皮肤癌的早期检测和病变识别的准确性,从而改善患者的治疗效果。
当前挑战
PAD-UFES-20数据集在构建过程中面临多项挑战。首先,皮肤癌的早期检测需要高精度的图像分析和分类,这对模型的准确性和鲁棒性提出了高要求。其次,数据集中的样本分布不均,某些类型的皮肤病变样本较少,导致数据不平衡问题,影响模型的训练效果。此外,临床图像中常包含如阴影和毛发等干扰因素,这些因素增加了病变分割的复杂性。为应对这些挑战,研究团队采用了多种技术,如Dullrazor算法去除图像中的毛发,以及图像增强技术来增加训练数据的多样性。这些措施旨在提高模型的泛化能力和诊断准确性,从而更有效地支持皮肤癌的早期检测和治疗。
常用场景
经典使用场景
PAD-UFES-20数据集在皮肤癌检测领域中具有经典的使用场景,主要用于通过智能手机采集的皮肤病变图像进行皮肤癌的分类和分割。该数据集包含了2,298个样本,涵盖了六种不同的皮肤病变类型,包括基底细胞癌、鳞状细胞癌和恶性黑色素瘤等。通过卷积神经网络(CNN)和U-Net架构,研究人员可以利用这些图像进行模型训练,以实现高精度的皮肤癌检测和病变区域分割,从而为临床诊断提供有力的支持。
实际应用
PAD-UFES-20数据集在实际应用中展现出巨大的潜力。在临床实践中,皮肤科医生可以利用该数据集训练的模型,通过智能手机或其他便携设备快速评估患者的皮肤病变,进行初步诊断。这不仅减少了患者等待时间,还降低了医疗资源的消耗。此外,该数据集的应用还可以扩展到远程医疗和社区健康监测中,通过人工智能辅助诊断,提高皮肤癌的早期发现率,从而改善患者的治疗效果和生活质量。
衍生相关工作
PAD-UFES-20数据集的发布催生了一系列相关的经典工作。研究人员基于该数据集开发了多种深度学习模型,如DenseNet121和U-Net,用于皮肤癌的分类和分割。这些模型在多个国际会议和期刊上发表,推动了皮肤癌诊断技术的进步。此外,该数据集还激发了其他研究者对皮肤病变图像处理和分析的兴趣,促进了图像增强、数据平衡和模型解释等技术的应用,进一步丰富了计算机辅助诊断(CAD)领域的研究内容。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作