SkinCon

Name: SkinCon
Creator: Developed by the authors based on existing datasets.
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://skincon-dataset.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由皮肤科医生进行了密集标注，包含了3230张来自Fitzpatrick 17k数据集的图片以及656张来自多样化皮肤病图像数据集的图片，这些图片被标注了48个与皮肤病相关的临床概念。此外，数据集涵盖了多种肤色，并针对皮肤科相关的临床概念进行了标注。规模上，该数据集融合了Fitzpatrick 17k的3230张图片和多样化皮肤病图像的656张图片。该数据集的任务是针对皮肤科的细粒度模型调试与分析。

This dataset was densely annotated by dermatologists, containing 3,230 images from the Fitzpatrick 17k dataset and 656 images from a diverse dermatological image dataset, with 48 dermatology-related clinical concepts labeled for all included images. It covers a wide range of skin tones and is annotated specifically for dermatological clinical concepts. In terms of scale, this dataset combines 3,230 images from Fitzpatrick 17k and 656 images from the aforementioned diverse dermatological image dataset. The core task of this dataset is to support fine-grained model debugging and analysis within the field of dermatology.

提供机构：

Developed by the authors based on existing datasets.

搜集汇总

数据集介绍

构建方式

在皮肤疾病诊断领域，临床描述术语的标准化为精细化标注提供了坚实基础。SkinCon数据集的构建基于Fitzpatrick 17k和DDI两个现有皮肤图像数据集，由资深皮肤科专家依据临床词典精心筛选出48个关键概念，涵盖皮损的形态、纹理和颜色等多维度特征。标注过程中，专家通过专用界面为每张图像标记存在的概念，并经过多轮独立验证，确保了标注的一致性与可靠性，最终形成了包含数千张图像的高质量概念标注数据集。

使用方法

SkinCon数据集支持多种高级机器学习应用，尤其适用于模型可解释性和精细化错误分析。研究人员可利用其概念标注训练概念激活向量，实施概念瓶颈模型，从而将黑盒模型转化为可解释的决策流程。此外，该数据集可用于生成概念反事实解释，帮助识别模型误诊的临床特征，或通过切片发现方法系统分析模型在不同概念子集上的性能差异，推动皮肤AI模型向更安全、可靠的方向发展。

背景与挑战

背景概述

在人工智能技术日益渗透高风险领域如医疗健康的背景下，可解释性与细粒度错误分析成为模型部署的关键需求。SkinCon数据集由斯坦福大学皮肤科与计算机科学团队于近年联合创建，旨在填补医学图像领域缺乏由领域专家密集标注的概念级元数据集的空白。该数据集基于Fitzpatrick 17k与Diverse Dermatology Images两个现有数据集，共包含3886张皮肤疾病图像，并由皮肤科专家标注了48个临床概念，如“斑块”、“鳞屑”和“糜烂”等。其核心研究问题在于通过提供跨多种疾病过程的语义化概念标注，支持可解释人工智能方法的发展，促进皮肤疾病诊断模型的调试与分析，对推动医疗AI的透明化与可靠性具有重要影响力。

当前挑战

SkinCon数据集致力于解决皮肤疾病图像分析中模型可解释性与细粒度错误分析的挑战。在领域问题层面，现有医学数据集中概念标注多局限于单一疾病特征，缺乏跨病种的通用临床描述符，限制了可解释方法在多样化皮肤病症中的泛化能力。构建过程中，挑战主要体现于标注的复杂性与质量控制：皮肤科专业术语的准确应用需要深厚领域知识，标注一致性难以保障；数据来源的异质性，如Fitzpatrick 17k数据集包含噪声图像与非皮肤内容，需经过滤与验证；此外，数据集中皮肤色调分布仍不均衡，深色皮肤样本相对不足，可能影响算法在不同人群中的公平性评估。

常用场景

经典使用场景

在皮肤疾病人工智能诊断领域，SkinCon数据集凭借其由皮肤科专家密集标注的48个临床概念，为模型的可解释性分析提供了坚实基础。该数据集最经典的应用场景在于支持概念瓶颈模型（CBM）和事后概念瓶颈模型（PCBM）的开发，通过将图像映射到人类可理解的临床描述符（如斑块、鳞屑、糜烂等），使模型决策过程变得透明可追溯。研究人员能够利用这些概念标签训练线性分类器，探究模型内部表示与临床特征之间的关联，从而在保持诊断性能的同时增强模型的可信度。

解决学术问题

SkinCon数据集主要解决了医疗人工智能中模型可解释性不足与细粒度错误分析缺乏标准化数据支撑的学术难题。传统皮肤疾病数据集通常专注于单一疾病（如黑色素瘤）的有限特征，而SkinCon首次提供了跨多种疾病过程的密集概念标注，使得研究者能够系统性地探究模型错误模式与临床概念之间的因果关系。例如，通过概念反事实解释（CCE）方法，可以识别出导致模型误诊的关键视觉特征（如溃疡或毛细血管扩张），这为改进模型鲁棒性、减少诊断偏差提供了实证依据，推动了可信医疗AI的发展。

实际应用

在实际医疗场景中，SkinCon数据集能够辅助开发临床可用的诊断支持工具，帮助皮肤科医生理解AI模型的决策依据。例如，在皮肤癌筛查系统中，利用数据集中的概念标注可以生成针对特定病例的解释报告，指出模型判断恶性病变所依赖的临床特征（如黑色素颜色或溃疡形态），从而增强医生对AI建议的信任。此外，该数据集支持对不同肤色人群的模型性能进行细粒度评估，有助于发现并纠正算法在深色皮肤上的诊断偏差，促进医疗AI的公平性与普适性部署。

数据集最近研究