Fitzpatrick 17k

Name: Fitzpatrick 17k
Creator: 麻省理工学院媒体实验室
Published: 2021-04-20 21:37:30
License: 暂无描述

arXiv2021-04-20 更新2024-06-21 收录

下载链接：

https://github.com/mattgroh/fitzpatrick17k

下载链接

链接失效反馈

官方服务：

资源简介：

Fitzpatrick 17k数据集是由麻省理工学院媒体实验室创建的，包含16,577张临床皮肤病图像，每张图像都标注了Fitzpatrick皮肤类型。该数据集来源于两个在线皮肤病图谱，主要用于评估深度神经网络在不同肤色上的分类准确性。数据集的创建过程中，由专业团队对图像进行了细致的标注，确保了数据的质量。该数据集的应用领域主要集中在皮肤病诊断的自动化和算法公平性的评估，旨在解决现有数据集中肤色不平衡导致的分类偏差问题。

The Fitzpatrick 17k Dataset was developed by the MIT Media Lab. It comprises 16,577 clinical dermatological images, each annotated with the Fitzpatrick skin type. This dataset is derived from two online dermatological atlases, and is primarily utilized to assess the classification performance of deep neural networks across diverse skin tones. During its construction, a professional team conducted meticulous manual annotations to ensure the quality of the data. Its main application scenarios focus on the automation of dermatological diagnosis and the evaluation of algorithm fairness, aiming to address classification bias caused by skin tone imbalance in existing datasets.

提供机构：

麻省理工学院媒体实验室

创建时间：

2021-04-20

搜集汇总

数据集介绍

构建方式

Fitzpatrick 17k 数据集是由两个在线皮肤科图谱 DermaAmin 和 Atlas Dermatologico 中的 16,577 张临床图像组成，这些图像被标注为 114 种不同的皮肤状况。图像的皮肤状况标签由 Scale AI 的专业标注团队根据 Fitzpatrick 评分系统进行标注，Fitzpatrick 评分系统是一种六点量表，最初用于分类皮肤的日光反应性并根据皮肤表型调整临床医学。为了确保数据质量，随机抽取了 3% 的数据样本由皮肤科医生进行评估，结果显示 69.0% 的图像与标签一致，19.2% 的图像可能一致，6.3% 的图像具有特征性，3.4% 的图像标签错误，2.0% 的图像被标记为其他。

使用方法

Fitzpatrick 17k 数据集可用于训练和评估深度神经网络模型在皮肤状况分类方面的准确性。数据集的皮肤类型标签可以帮助研究人员评估模型在不同皮肤类型上的表现，从而识别和解决潜在的数据偏差和模型偏差。此外，数据集的皮肤状况分类级别可用于提高深度学习系统的可解释性。为了使用该数据集，研究人员需要将图像和标签数据导入到深度学习框架中，并选择适当的模型架构和训练策略。

背景与挑战

背景概述

在皮肤病学领域，深度神经网络模型在分类临床图像方面的准确性如何随着皮肤颜色的变化而变化？近年来，计算机视觉模型在医疗保健领域的应用日益增多，并在一些特定任务上实现了与皮肤科医生相当水平的分类。然而，在训练这些模型的数据中，深色皮肤的代表不足。大多数公开可用的数据集都没有包括菲茨帕特里克皮肤类型标签。为了解决这个问题，研究人员创建了一个包含16577张临床图像的数据集，这些图像来自两个皮肤病学图谱，并由人类团队标注了菲茨帕特里克皮肤类型标签。该数据集揭示了该数据集中浅色皮肤类型图像的数量显著多于深色皮肤类型图像。通过训练一个深度神经网络模型来分类114种皮肤状况，研究人员发现该模型在与其训练相似的皮肤类型上最为准确。此外，他们还评估了一种算法方法来识别皮肤色调，即个体类型角度（ITA），并将其与人类标签员标注的菲茨帕特里克皮肤类型标签进行了比较。

当前挑战

Fitzpatrick 17k数据集在解决领域问题和构建过程中都面临一些挑战。首先，该数据集解决的领域问题是如何提高深度神经网络模型在分类临床图像方面的准确性，特别是在皮肤颜色多样性的情况下。其次，在构建过程中，研究人员面临的一个挑战是如何确保数据集的多样性和代表性，以便模型能够在不同皮肤类型上都能准确地进行分类。此外，研究人员还面临如何评估和减少数据集中的偏差，以避免算法对特定群体的系统性偏见。最后，研究人员还需要探索如何利用Fitzpatrick皮肤类型标签来评估和改进ITA等自动化皮肤色调评估工具的准确性和可靠性。

常用场景

经典使用场景

在皮肤病学领域，Fitzpatrick 17k 数据集被广泛应用于评估深度神经网络模型在分类临床皮肤图像时的准确性，特别是在不同肤色下的表现。该数据集包含了 16,577 张临床皮肤图像，涵盖了 114 种不同的皮肤状况，并标注了 Fitzpatrick 皮肤类型。通过对这些图像进行训练和测试，研究人员可以深入了解模型在不同肤色人群中的表现差异，以及如何通过数据增强和模型调整来减少这些差异。此外，Fitzpatrick 17k 数据集也被用于比较和评估计算机视觉算法在估计皮肤色调方面的性能，如个人类型角（ITA）方法，以探索更准确和自动化的皮肤类型标注方法。

解决学术问题

Fitzpatrick 17k 数据集解决了在皮肤病学研究中长期存在的问题，即肤色对诊断准确性的影响。该数据集揭示了在公开可用的皮肤图像数据集中，深色皮肤图像的代表性不足，以及这一现象如何导致深度神经网络模型在不同肤色人群中的准确性差异。通过提供标注了 Fitzpatrick 皮肤类型的临床图像，Fitzpatrick 17k 数据集为研究人员提供了评估和改进模型公平性和准确性的工具。此外，该数据集还促进了关于皮肤色调估计方法的学术讨论，如 ITA 方法，以探索更准确和自动化的皮肤类型标注方法。

实际应用

Fitzpatrick 17k 数据集在实际应用中具有广泛的前景。它可以帮助医疗保健提供者更准确地诊断和治疗不同肤色人群的皮肤状况，从而减少医疗差异。此外，该数据集还可以用于开发更精确的皮肤类型估计方法，如 ITA，以实现更自动化的皮肤类型标注，从而提高医疗图像分析的速度和效率。Fitzpatrick 17k 数据集还为医疗研究提供了宝贵的数据资源，有助于推动皮肤病学和计算机视觉领域的交叉研究，以开发更准确和公平的医疗诊断工具。

数据集最近研究