HAM10000

Name: HAM10000
Creator: 维也纳医科大学皮肤科ViDIR组
Published: 2018-11-25 18:18:03
License: 暂无描述

arXiv2018-11-25 更新2024-06-21 收录

下载链接：

https://isic-archive.com/

下载链接

链接失效反馈

官方服务：

资源简介：

HAM10000数据集是由维也纳医科大学皮肤科ViDIR组和昆士兰大学医学院合作创建的大型皮肤病理图像数据集，包含10015张来自不同来源的皮肤色素病变图像。数据集通过多种采集和清洗方法，利用专门训练的神经网络进行半自动化处理。该数据集主要用于学术机器学习训练，旨在通过机器学习技术提高皮肤色素病变的自动诊断能力，并与人类专家的诊断进行比较。数据集中的病例涵盖了所有重要的诊断类别，超过50%的病变已通过病理学确认。

The HAM10000 dataset is a large-scale skin lesion image dataset co-created by the ViDIR Group of the Department of Dermatology, Medical University of Vienna and the School of Medicine, University of Queensland. It contains 10,015 skin pigmented lesion images sourced from various origins. The dataset was processed semi-automatically using a specially trained neural network following multiple collection and cleaning procedures. Primarily intended for academic machine learning training, this dataset aims to enhance the automatic diagnostic performance of skin pigmented lesions via machine learning technologies, and to compare model outputs with diagnoses made by human experts. The cases included in the dataset cover all major diagnostic categories, with over 50% of the lesions confirmed via histopathology.

提供机构：

维也纳医科大学皮肤科ViDIR组

创建时间：

2018-03-28

搜集汇总

数据集介绍

构建方式

HAM10000数据集的构建汇集了来自不同人群、通过不同方式获取和存储的皮肤镜图像。由于这种多样性，我们必须应用不同的采集和清理方法，并开发半自动工作流程，利用专门训练的神经网络。最终数据集包含10015张皮肤镜图像，作为机器学习训练集发布，并通过ISIC存档公开提供。该基准数据集可用于机器学习和与人类专家的比较。

特点

HAM10000数据集的特点在于其多样性、大规模和高质量的皮肤镜图像。数据集包括了所有重要诊断类别的代表性病例，超过50%的病变已通过病理学确认，其余病例的真相要么是随访、专家共识，要么是通过活体共聚焦显微镜确认。数据集还包括了来自不同人口和设备的图像，以及来自不同诊断类别的病例。

使用方法

HAM10000数据集的使用方法包括下载、加载和预处理图像数据。用户可以使用Python等编程语言来处理这些数据，并使用深度学习等技术来训练模型。数据集还包括了元数据和标签信息，可以帮助用户进行更精确的分类和诊断。此外，数据集还可以用于比较人类和机器的诊断能力，以及评估自动化诊断系统的性能。

背景与挑战

背景概述

在皮肤病学领域，皮肤镜检技术是提高良性及恶性色素性皮肤病变诊断准确性的重要工具。HAM10000数据集，全称为“人类对抗机器，包含10000张训练图像”，由奥地利维也纳医科大学皮肤科ViDIR小组和澳大利亚昆士兰大学医学院Cliff Rosendahl的皮肤癌诊所共同创建。该数据集旨在解决现有皮肤镜检图像数据集规模小、多样性不足的问题，为训练神经网络以实现色素性皮肤病变的自动诊断提供支持。HAM10000数据集包含了来自不同人群、通过不同方式获取和存储的皮肤镜检图像，共计10015张，通过ISIC档案公开提供给学术界的机器学习研究。该数据集涵盖了所有重要的诊断类别，超过50%的病变经病理学确认，其余病例的真相则通过随访、专家共识或在体共聚焦显微镜确认。HAM10000数据集的发布对色素性皮肤病变的自动诊断研究产生了深远的影响，为机器学习和与人类专家的比较提供了重要的基准数据集。

当前挑战

HAM10000数据集的构建过程中面临的主要挑战包括：1)如何整合来自不同来源、不同存储方式的皮肤镜检图像；2)如何对收集到的图像进行清洗和标准化处理，以保证数据质量；3)如何对病理诊断进行统一和分类，以形成可用于训练和测试的分类器。此外，由于皮肤镜检图像的多样性和复杂性，如何有效地对图像进行分类和标注，以及如何设计适用于多种疾病的分类器，也是当前研究面临的挑战。

常用场景

经典使用场景

HAM10000数据集是一个大规模的多源皮肤镜图像数据库，主要用于训练神经网络以实现皮肤病变的自动诊断。这个数据集包含了从不同人群收集的皮肤镜图像，并且通过不同的获取方式存储。这一多样性要求我们应用不同的获取和清理方法，并开发了利用专门训练的神经网络的半自动工作流程。最终的数据集包含10015张皮肤镜图像，作为学术机器学习的训练集，并通过ISIC存档公开发布。这一基准数据集可以用于机器学习和与人类专家的比较。案例包括皮肤病变领域所有重要诊断类别的代表性集合。超过50%的病变已经通过病理学得到证实，而其余病例的真相要么是通过随访、专家共识，要么是通过活体共聚焦显微镜得到证实。

衍生相关工作

HAM10000数据集的发布衍生了许多相关的研究工作。例如，一些研究使用HAM10000数据集训练神经网络，以实现对皮肤病变的自动分类和诊断。此外，一些研究还使用HAM10000数据集评估不同机器学习算法在皮肤病变诊断任务上的性能。这些研究对于推动皮肤病变的自动诊断研究具有重要意义。

数据集最近研究