39类皮肤病变数据集|皮肤病变数据集|深度学习数据集

arXiv2025-01-10 更新2025-01-14 收录

皮肤病变

深度学习

下载链接：

https://github.com/akabircs/Skin-Lesions-Classification

下载链接

链接失效反馈

资源简介：

该数据集由吉大港工程技术大学和查尔斯特大学的研究团队创建，整合了五个公开可用的数据集，涵盖了39种不同类型的皮肤病变。数据集内容丰富，包含了多种皮肤病变的图像数据，旨在为皮肤病变的分类提供多样化的训练样本。数据集的创建过程包括数据整合、预处理和图像增强等步骤，以提高数据质量和模型的泛化能力。该数据集主要用于深度学习模型的训练和评估，旨在提高皮肤病变分类的准确性和效率，帮助医疗专业人员更快速、准确地诊断多种皮肤病变。

提供机构：

吉大港工程技术大学计算机科学与工程系, 查尔斯特大学计算、数学与工程学院

创建时间：

2025-01-10

AI搜集汇总

数据集介绍

构建方式

39类皮肤病变数据集的构建基于五个公开可用的数据集，通过整合这些数据集中的图像和标注信息，形成了一个包含39种不同皮肤病变类型的多样化数据集。数据集的构建过程包括数据集的筛选、标准化和平衡处理，以确保每个类别的样本数量相对均衡。具体而言，每个类别的图像数量被限制在130张，以避免数据不平衡问题。此外，数据集还经过了预处理步骤，如图像尺寸调整和归一化，以确保输入数据的统一性。数据集的最终划分比例为70%用于训练，15%用于测试，15%用于验证，确保了模型的泛化能力。

使用方法

该数据集主要用于训练和评估深度学习模型在皮肤病变分类任务中的表现。研究人员可以使用该数据集来训练多种深度学习模型，如MobileNetV2、Xception、InceptionV3、EfficientNetB1和Vision Transformer等，并通过集成注意力机制（如ECA和CBAM）来提升模型的分类性能。数据集的使用方法包括数据加载、预处理、模型训练和性能评估。研究人员可以通过交叉验证、混淆矩阵、ROC曲线等指标来评估模型的准确性、精确度、召回率和F1分数。此外，数据集还可用于研究数据增强技术对模型性能的影响，以及探索多模态数据融合在皮肤病变分类中的应用。

背景与挑战

背景概述

39类皮肤病变数据集由Sauda Adiv Hanuma等人于2025年创建，旨在通过深度学习技术提升皮肤病变的分类精度。该数据集整合了五个公开数据集，涵盖了39种不同类型的皮肤病变，包括良性和恶性病变。皮肤作为人体最大的器官，易受多种病变影响，某些病变可能是皮肤癌等严重疾病的早期征兆。传统的皮肤病变诊断依赖于医生的经验，但由于病变之间的视觉差异微小，误诊率较高。该数据集的创建为皮肤病变的自动分类提供了重要支持，推动了计算机辅助诊断系统的发展。通过引入注意力机制，如Efficient Channel Attention (ECA)和Convolutional Block Attention Module (CBAM)，研究团队进一步提升了模型的分类性能，Vision Transformer结合CBAM的模型在分类任务中达到了93.46%的准确率。

当前挑战

39类皮肤病变数据集在构建和应用过程中面临多重挑战。首先，皮肤病变的视觉特征差异微小，尤其是某些病变在外观上极为相似，如麻风病和传染性软疣，这增加了分类的难度。其次，数据集整合过程中，不同来源的数据在图像分辨率、质量和标注标准上存在显著差异，导致数据预处理和标准化工作复杂且耗时。此外，数据集中某些类别的样本数量较少，存在类别不平衡问题，可能影响模型的泛化能力。尽管通过数据增强技术缓解了这一问题，但仍需进一步扩充数据集的多样性和代表性。最后，尽管深度学习模型在分类任务中表现出色，但其对计算资源的需求较高，限制了其在资源有限环境中的应用。未来研究需探索更高效的模型压缩和优化技术，以提升其在实际医疗场景中的适用性。

常用场景

经典使用场景

39类皮肤病变数据集在皮肤病诊断领域具有广泛的应用，尤其是在基于深度学习的皮肤病变分类任务中。该数据集通过整合五个公开数据集，涵盖了39种不同类型的皮肤病变，为研究者提供了一个多样化的数据基础。其经典使用场景包括训练和评估深度学习模型，如MobileNetV2、Xception、InceptionV3、EfficientNetB1和Vision Transformer等，以提升皮肤病变分类的准确性和鲁棒性。通过引入注意力机制（如ECA和CBAM），该数据集进一步优化了模型的性能，使其在复杂病变分类任务中表现出色。

解决学术问题

39类皮肤病变数据集解决了皮肤病诊断中的多个学术问题。首先，它通过整合多个公开数据集，克服了单一数据集样本不足和类别不平衡的问题，提供了更全面的病变类型覆盖。其次，该数据集通过引入注意力机制，显著提升了深度学习模型在皮肤病变分类中的表现，尤其是在处理视觉差异较小的病变时，能够更精确地捕捉病变特征。此外，该数据集还为研究者提供了一个标准化的评估平台，推动了皮肤病诊断领域的研究进展。

实际应用

在实际应用中，39类皮肤病变数据集为皮肤病诊断提供了强有力的支持。通过训练深度学习模型，该数据集能够帮助医生快速、准确地识别多种皮肤病变，尤其是早期皮肤癌等严重疾病的诊断。其应用场景包括医院皮肤科、远程医疗平台以及移动健康应用，能够显著提高诊断效率，减少误诊率，并为患者提供个性化的治疗方案。此外，该数据集还可用于开发智能诊断工具，辅助医生进行临床决策。

数据集最近研究

相关研究论文

1
An Attention-Guided Deep Learning Approach for Classifying 39 Skin Lesion Types吉大港工程技术大学计算机科学与工程系, 查尔斯特大学计算、数学与工程学院 · 2025年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集，包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面，平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建，扩展至包含ID #6,857,737的图像，增加了超过180万张新图像，总大小约为8TB。图像以原始格式提供，分为1000个子目录，使用图像ID的模1000进行分桶，以避免文件系统性能问题。

hugging_face 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。