HAM10000|医学影像数据集|机器学习数据集
收藏皮肤癌检测数据集 (HAM10000 数据集)
HAM10000 数据集是一个全面的皮肤镜图像集合,用于皮肤病变分类,广泛应用于医学影像和机器学习领域。该数据集包含多种皮肤病变,旨在推动皮肤病学研究,特别是皮肤癌的诊断。数据集由来自不同个体的 10,000 张高分辨率皮肤病变图像组成。这种多样性有助于训练稳健的机器学习模型,使其能够很好地泛化到未见过的数据。数据集的主要挑战是其显著的不平衡性。
收集的图像被注释并分类为 7 个类别,包括:
- 黑色素瘤:3
- 黑色素细胞痣:1
- 基底细胞癌:5
- 鳞状细胞癌:2
- 光化性角化病:6
- 血管性病变:4
- 良性角化病(脂溢性角化病等):0
类别分布
在任何机器学习任务中,建议在开始建模阶段之前进行探索性分析。这一过程可以提供关于数据的洞察,为改进建模工作提供有价值的信息。例如,检查 HAM10000 数据集中的类别分布表明它是不平衡的,需要仔细的策略来解决这个问题。
在这种情况下,对所有类别给予相同的错误权重可能会导致问题,因为模型可能会简单地将所有实例分类为多数类别以达到虚高的准确率。这种方法忽略了不同癌症类型需要不同的治疗方法。为了解决这个问题,根据每个类别的数量分配错误权重至关重要。例如,如果 nv 类是多数类,模型应该对其优先级较低。我使用中位频率平衡进行类别加权,尽管模式频率平衡和逆频率方法也是选项。
微调 ResNet50
ResNet50,即具有 50 层的残差网络,是一种深度卷积神经网络,旨在解决深度网络中的梯度消失问题。ResNet50 通过跳跃连接利用残差学习,允许网络学习相对于输入层的残差函数。这种架构使得训练非常深的网络成为可能,提高了图像分类、目标检测等任务的性能。
由于基础模型在包含 1000 个类别的 ImageNet 上进行训练,我们需要用定制层替换其投影头进行微调。投影头是一个简单的线性分类器,输入维度为 2048,输出 7 个类别分数,然后通过 softmax 激活函数进行归一化。有两种常见的训练方法:要么冻结基础模型的主干并仅训练新的投影头,要么调整整个网络的参数。我选择了后者,因为如果不修改主干参数,简单的投影头无法正确分类数据。为了充分利用 ResNet50 的能力,主干参数不应显著改变,因此主干的学习率应小于投影头的学习率。
学习曲线报告如下:
准确率图如下:
对于不平衡的数据集,仅依赖准确率指标可能会产生误导。其他指标,如精确度和召回率,也应予以考虑。混淆矩阵如下:

猫狗图像数据集
该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。
github 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
RFUAV
RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集,包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题,提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别,有助于推动相关技术的研究与应用。
arXiv 收录