HAM10000|医学影像数据集|机器学习数据集

github2024-07-27 更新2024-07-29 收录

医学影像

机器学习

下载链接：

https://github.com/VahidMohammadZadehEivaghi/Skin-Cancer-Detection

下载链接

链接失效反馈

资源简介：

HAM10000数据集是一个全面收集的皮肤镜图像集合，用于皮肤病变分类，广泛应用于医学影像和机器学习领域。该数据集包含多种皮肤病变，旨在推动皮肤病学研究，特别是皮肤癌的诊断。数据集由10,000张高分辨率的皮肤病变图像组成，来源多样，有助于训练稳健的机器学习模型，使其能够很好地泛化到未见过的数据。数据集的主要挑战是其显著的不平衡性。

创建时间：

2024-07-27

原始信息汇总

皮肤癌检测数据集 (HAM10000 数据集)

HAM10000 数据集是一个全面的皮肤镜图像集合，用于皮肤病变分类，广泛应用于医学影像和机器学习领域。该数据集包含多种皮肤病变，旨在推动皮肤病学研究，特别是皮肤癌的诊断。数据集由来自不同个体的 10,000 张高分辨率皮肤病变图像组成。这种多样性有助于训练稳健的机器学习模型，使其能够很好地泛化到未见过的数据。数据集的主要挑战是其显著的不平衡性。

收集的图像被注释并分类为 7 个类别，包括：

黑色素瘤：3
黑色素细胞痣：1
基底细胞癌：5
鳞状细胞癌：2
光化性角化病：6
血管性病变：4
良性角化病（脂溢性角化病等）：0

类别分布

在任何机器学习任务中，建议在开始建模阶段之前进行探索性分析。这一过程可以提供关于数据的洞察，为改进建模工作提供有价值的信息。例如，检查 HAM10000 数据集中的类别分布表明它是不平衡的，需要仔细的策略来解决这个问题。

在这种情况下，对所有类别给予相同的错误权重可能会导致问题，因为模型可能会简单地将所有实例分类为多数类别以达到虚高的准确率。这种方法忽略了不同癌症类型需要不同的治疗方法。为了解决这个问题，根据每个类别的数量分配错误权重至关重要。例如，如果 nv 类是多数类，模型应该对其优先级较低。我使用中位频率平衡进行类别加权，尽管模式频率平衡和逆频率方法也是选项。

微调 ResNet50

ResNet50，即具有 50 层的残差网络，是一种深度卷积神经网络，旨在解决深度网络中的梯度消失问题。ResNet50 通过跳跃连接利用残差学习，允许网络学习相对于输入层的残差函数。这种架构使得训练非常深的网络成为可能，提高了图像分类、目标检测等任务的性能。

由于基础模型在包含 1000 个类别的 ImageNet 上进行训练，我们需要用定制层替换其投影头进行微调。投影头是一个简单的线性分类器，输入维度为 2048，输出 7 个类别分数，然后通过 softmax 激活函数进行归一化。有两种常见的训练方法：要么冻结基础模型的主干并仅训练新的投影头，要么调整整个网络的参数。我选择了后者，因为如果不修改主干参数，简单的投影头无法正确分类数据。为了充分利用 ResNet50 的能力，主干参数不应显著改变，因此主干的学习率应小于投影头的学习率。

学习曲线报告如下：

准确率图如下：

对于不平衡的数据集，仅依赖准确率指标可能会产生误导。其他指标，如精确度和召回率，也应予以考虑。混淆矩阵如下：

AI搜集汇总

数据集介绍

构建方式

HAM10000数据集的构建基于对皮肤镜图像的综合收集，旨在为皮肤病变分类提供丰富的资源。该数据集包含10,000张高分辨率的皮肤病变图像，来源于不同个体，确保了样本的多样性。这些图像被细致地标注并分类为7个类别，包括黑色素瘤、痣、基底细胞癌等，以支持在皮肤病学领域的深入研究。数据集的构建过程中特别关注了类别的不平衡问题，这一特点在数据集的使用和模型训练中需特别注意。

使用方法

使用HAM10000数据集时，首先建议进行探索性数据分析，以了解类别分布和数据特性。针对数据集的不平衡性，可以采用如中位数频率平衡、模式频率平衡或逆频率方法等策略来调整类别权重。在模型训练方面，推荐使用如ResNet50等深度卷积神经网络，并通过微调网络参数来优化模型性能。此外，考虑到数据集的特性，评估模型时应综合考虑准确率、精确率和召回率等多项指标，以全面评估模型的性能。

背景与挑战

背景概述

HAM10000数据集是一个全面的皮肤病理学图像集合，广泛应用于医学影像和机器学习领域。该数据集由10,000张高分辨率的皮肤病变图像组成，涵盖了多种皮肤病变类型，旨在推动皮肤病学研究，特别是皮肤癌的诊断。这些图像来源于不同个体，具有高度的多样性，有助于训练出能够泛化到未见数据的稳健机器学习模型。HAM10000数据集的核心研究问题是如何通过机器学习技术准确分类皮肤病变，从而辅助临床诊断。该数据集的创建和发布对皮肤病学和医学影像领域产生了深远影响，为研究人员提供了一个标准化的数据平台，以开发和验证新的诊断工具。

当前挑战

HAM10000数据集面临的主要挑战是其显著的类别不平衡问题。数据集中不同类别的皮肤病变样本数量差异巨大，这可能导致训练出的模型在少数类别上的表现不佳。此外，由于不同类型的皮肤癌需要不同的治疗方案，模型在分类时必须能够准确区分各类病变，避免因类别不平衡导致的误诊。在构建过程中，研究人员需要采用有效的数据平衡策略，如中位频率平衡或逆频率方法，以确保模型在所有类别上的表现均衡。此外，由于数据集的高分辨率和多样性，如何有效地提取和利用图像特征也是一个重要的挑战。

常用场景

经典使用场景

HAM10000数据集在皮肤病学领域中被广泛应用于皮肤病变分类任务，特别是皮肤癌的诊断。其高分辨率的图像和多样化的皮肤病变类型为训练鲁棒的机器学习模型提供了丰富的数据基础。通过使用深度学习技术，如ResNet50，研究人员能够有效地识别和分类不同类型的皮肤病变，从而提高诊断的准确性和效率。

解决学术问题

HAM10000数据集解决了医学影像分析中常见的数据不平衡问题，特别是在皮肤癌的分类任务中。通过引入适当的权重平衡策略，如中位频率平衡，研究人员能够克服数据集的不平衡性，提升模型的泛化能力和分类性能。这一改进对于提高皮肤癌早期诊断的准确性具有重要意义，有助于推动皮肤病学领域的研究进展。

实际应用

在实际应用中，HAM10000数据集被用于开发和验证皮肤癌自动诊断系统。这些系统通过分析患者的皮肤图像，能够快速且准确地识别出潜在的皮肤病变，为临床医生提供辅助诊断工具。此外，该数据集还被用于培训医学生和初级医生，帮助他们提高对皮肤病变的识别能力，从而提升整体医疗服务的质量。

数据集最近研究

最新研究方向

在皮肤病学领域，HAM10000数据集的最新研究方向主要集中在解决数据不平衡问题以及提升皮肤癌检测模型的准确性和泛化能力。研究人员通过采用先进的深度学习技术，如ResNet50的微调，来优化模型性能。此外，针对数据集的不平衡性，研究者们探索了多种重采样和加权策略，以确保模型在不同类别上的表现更为均衡。这些研究不仅推动了皮肤癌早期诊断技术的发展，也为其他医学影像分析任务提供了宝贵的经验。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

DALY

DALY数据集包含了全球疾病负担研究（Global Burden of Disease Study）中的伤残调整生命年（Disability-Adjusted Life Years, DALYs）数据。该数据集提供了不同国家和地区在不同年份的DALYs指标，用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

RFUAV

RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集，包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题，提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别，有助于推动相关技术的研究与应用。

arXiv 收录