ISIC 2020 Challenge Dataset

github2026-04-14 更新2026-04-15 收录

下载链接：

https://github.com/YaroslawBagriy/MelanomaDetection

下载链接

链接失效反馈

官方服务：

资源简介：

我们使用的是为ISIC 2020 Kaggle挑战赛准备的数据集。它包含由专家和医疗专业人员审查的良性和恶性皮肤病变的皮肤镜图像。

The dataset utilized in this study was prepared for the ISIC 2020 Kaggle Challenge. It comprises dermoscopic images of benign and malignant skin lesions that have been reviewed by experts and medical professionals.

创建时间：

2026-03-15

原始信息汇总

数据集概述

数据集基本信息

数据集名称: ISIC 2020 Challenge Dataset
数据来源: ISIC 2020 Challenge (https://challenge2020.isic-archive.com/)
数据用途: 用于通过皮肤镜图像进行黑色素瘤检测的二元图像分类，并探索生成模型（如变分自编码器）以理解病变表示、探索潜在空间及生成合成恶性样本。

数据规模与结构

总记录数: 33,126
属性数量: 8
独立患者数: 2,056

数据属性说明

image_name: 图像文件名（.jpg格式）
patient_id: 患者标识符
sex: 性别分类（male, female）
age_approx: 近似年龄，数值型
anatom_site_general_challenge: 病变的解剖部位
diagnosis: 诊断类型
benign_malignant: 良恶性分类（benign, malignant）
target: 二元目标变量（0代表良性，1代表恶性）

数据集统计摘要

年龄（age_approx）统计

非缺失值数量: 33,058
缺失值数量: 68
平均值: 48.87
标准差: 14.38
中位数: 50
最小值: 0
最大值: 90

性别分布

男性: 17,080 (51.56%)
女性: 15,981 (48.24%)
缺失: 65 (0.20%)

良性与恶性分布

良性: 32,542 (98.24%)
恶性: 584 (1.76%)

诊断类型分布

unknown: 27,124 (81.88%)
nevus: 5,193 (15.68%)
melanoma: 584 (1.76%)
seborrheic keratosis: 135 (0.41%)
lentigo NOS: 44 (0.13%)
lichenoid keratosis: 37 (0.11%)
solar lentigo: 7 (0.02%)
cafe-au-lait macule: 1
atypical melanocytic proliferation: 1

解剖部位分布

torso: 16,845 (50.85%)
lower extremity: 8,417 (25.41%)
upper extremity: 4,983 (15.04%)
head/neck: 1,855 (5.60%)
palms/soles: 375 (1.13%)
oral/genital: 124 (0.37%)
缺失: 527 (1.59%)

数据集关键特征

数据集严重不平衡，恶性样本仅占1.76%。
包含约81.88%的诊断类型为“unknown”。
病变主要位于躯干（50.85%）。

搜集汇总

数据集介绍

构建方式

在皮肤癌诊断领域，ISIC 2020挑战数据集作为一项重要的医学影像资源，其构建过程体现了严谨的学术协作。该数据集源自国际皮肤影像合作组织（ISIC）2020年举办的Kaggle竞赛，共收录了33,126张经过专业医师标注的皮肤镜图像。这些图像关联了8项临床属性，包括患者年龄、性别、病灶解剖部位及诊断类别，数据来源于2,056名独立患者，确保了样本的多样性与代表性。图像采集遵循标准化的医学影像协议，所有恶性与良性标签均由领域专家审核确认，为后续机器学习研究提供了可靠的基础。

特点

该数据集在皮肤病变分析领域展现出鲜明的特征。其核心在于极端的类别不平衡分布，恶性样本仅占总数1.76%，这精准反映了临床实践中黑色素瘤的相对稀缺性，为研究不平衡分类问题提供了真实场景。数据集不仅包含高分辨率皮肤镜图像，还整合了多维临床元数据，如病灶解剖位置与患者人口统计学信息，支持多模态学习探索。图像覆盖了躯干、四肢等七大解剖区域，且诊断标签细分为九种病理类别，包括黑色素瘤、痣及日光性角化病等，为模型区分相似病变形态提供了细致标注。

使用方法

研究人员可借助该数据集开展多项计算病理学研究。典型应用包括构建端到端的二进制分类模型，以区分良性病灶与恶性黑色素瘤，在此过程中需专门设计策略应对显著的类别不平衡问题，如采用加权损失函数或过采样技术。数据集亦支持生成式模型的探索，例如利用变分自编码器在潜在空间中分析病变特征，并合成少数类样本以增强训练数据。进阶用法可将图像特征与年龄、解剖部位等元数据融合，构建多输入神经网络，从而提升诊断的鲁棒性与可解释性。

背景与挑战

背景概述

皮肤黑色素瘤作为最具侵袭性的皮肤癌类型之一，其早期精准识别对于提升患者生存率至关重要。ISIC 2020挑战数据集由国际皮肤影像协作组织于2020年发布，旨在推动基于深度学习的皮肤镜图像分析研究。该数据集汇集了来自两千余名患者的超过三万张皮肤病灶图像，每张图像均附有病理诊断、患者人口统计学及病灶解剖部位等多维度标注。核心研究聚焦于通过计算机视觉技术实现良恶性病灶的自动化分类，为临床辅助诊断系统提供可靠的数据基础，显著促进了皮肤病学与人工智能的跨学科融合。

当前挑战

该数据集致力于解决皮肤镜图像中黑色素瘤自动检测的领域挑战，其中首要难题在于极端类别不平衡——恶性样本仅占总数1.76%，导致模型易于偏向多数类而忽视关键病变特征。构建过程中，医学图像标注依赖专业医师的视觉评估，存在主观差异与诊断一致性难题；同时病灶在形态、颜色及纹理上的高度异质性，以及拍摄设备与照明条件的技术变异，进一步增加了数据标准化与特征提取的复杂度。这些因素共同构成了模型鲁棒性提升与临床可推广性的核心障碍。

常用场景

经典使用场景

在皮肤癌诊断领域，ISIC 2020挑战数据集为研究人员提供了一个标准化的基准平台，用于开发和评估基于深度学习的黑色素瘤检测模型。该数据集包含大量经过专家标注的皮肤镜图像，涵盖了良性和恶性病变的多样形态，使得研究者能够训练卷积神经网络等模型，实现自动化的病变分类。通过这一数据集，学者们可以系统地探索图像特征提取、模型泛化能力以及诊断准确性等关键问题，推动了计算机辅助诊断技术在皮肤病学中的深入应用。

实际应用

该数据集的实际价值体现在临床辅助诊断系统的开发中，能够支持医生进行早期黑色素瘤筛查，减少人为误判风险。通过集成到医疗影像平台，基于该数据训练的模型可提供实时病变分析建议，尤其在资源匮乏地区发挥重要作用。此外，它还被用于医学教育工具，帮助培训医师识别皮肤镜图像中的细微病变特征，提升整体诊断水平。

衍生相关工作

围绕ISIC 2020数据集，衍生出多项经典研究工作，包括基于注意力机制的病变分割网络、结合元数据的多模态分类框架，以及利用变分自编码器生成合成恶性图像以缓解数据不平衡的方法。这些工作不仅推动了生成对抗网络在医学图像增强中的应用，还促进了可解释性人工智能的发展，例如通过潜在空间插值技术可视化病变演变过程，为皮肤病学研究提供了新的分析视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集