ahmed-ai/skin-lesions-classification-dataset

Name: ahmed-ai/skin-lesions-classification-dataset
Creator: ahmed-ai
Published: 2024-03-29 22:10:20
License: 暂无描述

Hugging Face2024-03-29 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/ahmed-ai/skin-lesions-classification-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于14种皮肤病变的分类，由HAM10000(2019)和MSLDv2.0两个数据集合并而成。数据集包含14个类别：光化性角化病、基底细胞癌、良性角化样病变、水痘、牛痘、皮肤纤维瘤、手足口病、健康、麻疹、黑色素细胞痣、黑色素瘤、猴痘、鳞状细胞癌和血管病变。数据集分为训练集、验证集和测试集，分别包含29322、3660和3674个示例。

提供机构：

ahmed-ai

原始信息汇总

数据集概述

数据集名称

Skin Lesions Dataset

数据集内容

类别数量: 14
类别名称:
- Actinic keratoses
- Basal cell carcinoma
- Benign keratosis-like lesions
- Chickenpox
- Cowpox
- Dermatofibroma
- Healthy
- HFMD
- Measles
- Melanocytic nevi
- Melanoma
- Monkeypox
- Squamous cell carcinoma
- Vascular lesions

数据集结构

特征:
- image: 图像数据
- label: 类别标签，包含14个类别名称

数据集划分

训练集: 29322个样本，总大小11781822388.236字节
验证集: 3660个样本，总大小1129580056.38字节
测试集: 3674个样本，总大小1166877801.52字节

数据集大小

下载大小: 9960809758字节
总大小: 14078280246.136002字节

数据集配置

默认配置:
- 训练数据路径: data/train-*
- 验证数据路径: data/validation-*
- 测试数据路径: data/test-*

搜集汇总

数据集介绍

构建方式

在皮肤病变图像分类领域，数据集的构建质量直接影响模型的诊断精度。本数据集通过整合两个权威公开数据集HAM10000（2019）与MSLDv2.0，构建了一个涵盖14类皮肤病变的图像集合。构建过程涉及数据清洗、类别对齐与标准化划分，确保图像质量与标签一致性。最终形成包含训练集29322例、验证集3660例与测试集3674例的结构化数据，为模型训练与评估提供了可靠基础。

特点

该数据集的核心特征在于其广泛的病理覆盖与高质量的图像标注。它囊括了从良性病变如黑色素细胞痣，到恶性病变如黑色素瘤与基底细胞癌，乃至传染性皮肤病如水痘与猴痘等14种临床常见类别。每张图像均经过专业医学标注，确保了病理诊断的准确性。数据集规模庞大且经过均衡划分，支持深度学习模型进行细致特征学习与稳健性能验证，为皮肤科人工智能研究提供了宝贵资源。

使用方法

研究人员可通过Hugging Face平台便捷加载此数据集，利用其预置的训练、验证与测试划分开展模型开发。典型工作流程包括使用datasets库的load_dataset函数直接导入，随后应用图像增强、归一化等预处理技术。开发者可基于该数据训练卷积神经网络或视觉Transformer等模型，进行多分类任务，并通过验证集调优超参数，最终在独立测试集上评估模型泛化能力，推动皮肤病变自动诊断技术的进步。

背景与挑战

背景概述

皮肤病变分类数据集ahmed-ai/skin-lesions-classification-dataset由研究人员Ahmed等人于近年构建，其核心目标在于整合HAM10000与MSLDv2.0两大公开资源，形成一个涵盖14类皮肤病变的综合性图像数据集。该数据集聚焦于皮肤镜图像的多类别自动诊断，旨在通过深度学习技术辅助识别从良性痣到恶性黑色素瘤等多种皮肤疾病，对皮肤病学与人工智能交叉领域具有显著的推动作用，为临床辅助诊断系统的开发提供了关键数据支撑。

当前挑战

该数据集致力于解决皮肤病变自动分类中的关键挑战，包括类别间视觉相似度高导致的模型区分困难，以及数据集中不同病变类别样本数量不均衡可能引发的模型偏差问题。在构建过程中，挑战主要源于多源数据的整合，需统一不同采集设备、光照条件和图像分辨率带来的异质性，同时确保合并后的标签体系一致且临床意义准确，这对数据清洗与标注质量提出了较高要求。

常用场景

经典使用场景

在皮肤病变分类领域，该数据集为深度学习模型提供了丰富的训练与评估基础。通过整合HAM10000与MSLDv2.0两大权威来源，它涵盖了从良性痣到恶性黑色素瘤等14类皮肤病变图像，为研究者构建高精度分类模型创造了条件。其经典应用场景集中于医学图像分析，特别是利用卷积神经网络进行皮肤病变的自动识别与分类，助力提升诊断的准确性与效率。

解决学术问题

该数据集有效解决了皮肤病变识别中数据稀缺与类别不平衡的学术挑战。通过融合多源数据，它提供了大规模、多样化的图像样本，支持研究者探索模型在复杂临床场景下的泛化能力。其意义在于推动了计算机辅助诊断系统的发展，为皮肤癌早期检测提供了可靠的数据支撑，显著降低了误诊风险，并促进了跨学科研究在医学人工智能领域的深度融合。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于深度学习的多类别皮肤病变分类算法优化。例如，研究者利用其开发了针对种族多样性的病变检测系统，提升了模型在不同人群中的适用性。这些工作进一步推动了迁移学习、数据增强等技术在医学图像领域的创新，并为后续更广泛的皮肤疾病数据集构建与标准化奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集