HAM10000|医学影像数据集|机器学习数据集
收藏皮肤癌检测数据集 (HAM10000 数据集)
HAM10000 数据集是一个全面的皮肤镜图像集合,用于皮肤病变分类,广泛应用于医学影像和机器学习领域。该数据集包含多种皮肤病变,旨在推动皮肤病学研究,特别是皮肤癌的诊断。数据集由来自不同个体的 10,000 张高分辨率皮肤病变图像组成。这种多样性有助于训练稳健的机器学习模型,使其能够很好地泛化到未见过的数据。数据集的主要挑战是其显著的不平衡性。
收集的图像被注释并分类为 7 个类别,包括:
- 黑色素瘤:3
- 黑色素细胞痣:1
- 基底细胞癌:5
- 鳞状细胞癌:2
- 光化性角化病:6
- 血管性病变:4
- 良性角化病(脂溢性角化病等):0
类别分布
在任何机器学习任务中,建议在开始建模阶段之前进行探索性分析。这一过程可以提供关于数据的洞察,为改进建模工作提供有价值的信息。例如,检查 HAM10000 数据集中的类别分布表明它是不平衡的,需要仔细的策略来解决这个问题。
在这种情况下,对所有类别给予相同的错误权重可能会导致问题,因为模型可能会简单地将所有实例分类为多数类别以达到虚高的准确率。这种方法忽略了不同癌症类型需要不同的治疗方法。为了解决这个问题,根据每个类别的数量分配错误权重至关重要。例如,如果 nv 类是多数类,模型应该对其优先级较低。我使用中位频率平衡进行类别加权,尽管模式频率平衡和逆频率方法也是选项。
微调 ResNet50
ResNet50,即具有 50 层的残差网络,是一种深度卷积神经网络,旨在解决深度网络中的梯度消失问题。ResNet50 通过跳跃连接利用残差学习,允许网络学习相对于输入层的残差函数。这种架构使得训练非常深的网络成为可能,提高了图像分类、目标检测等任务的性能。
由于基础模型在包含 1000 个类别的 ImageNet 上进行训练,我们需要用定制层替换其投影头进行微调。投影头是一个简单的线性分类器,输入维度为 2048,输出 7 个类别分数,然后通过 softmax 激活函数进行归一化。有两种常见的训练方法:要么冻结基础模型的主干并仅训练新的投影头,要么调整整个网络的参数。我选择了后者,因为如果不修改主干参数,简单的投影头无法正确分类数据。为了充分利用 ResNet50 的能力,主干参数不应显著改变,因此主干的学习率应小于投影头的学习率。
学习曲线报告如下:
准确率图如下:
对于不平衡的数据集,仅依赖准确率指标可能会产生误导。其他指标,如精确度和召回率,也应予以考虑。混淆矩阵如下:

中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
中文《诗歌总集》
这是一个收录所有中文诗词的数据集,旨在提供一个系统、完善、高质量的诗词数据集合。数据集包括诗词的收录、校正、鉴赏和评分,并标准化为统一的JSON格式。
github 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录