five

HAM-10000

收藏
github2024-03-21 更新2024-05-31 收录
下载链接:
https://github.com/ptschandl/HAM10000_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
HAM-10000数据集,也称为Human Against Machine with 10000 training images,是一个包含10000张训练图像的数据集,用于扩展ISIC 2018挑战的第三部分。该数据集主要用于皮肤病变图像分析,可通过哈佛数据verse或ISIC档案下载。

The HAM-10000 dataset, also known as Human Against Machine with 10000 training images, is a collection of 10,000 training images designed to extend the third part of the ISIC 2018 challenge. This dataset is primarily utilized for the analysis of skin lesion images and can be downloaded via the Harvard Dataverse or the ISIC archive.
创建时间:
2018-02-11
原始信息汇总

数据集概述

数据集名称

  • HAM 10000 Dataset

数据集内容

  • 包含10000张多源皮肤病学图像,主要用于识别常见的色素性皮肤病变。

数据集用途

  • 用于扩展ISIC 2018挑战的第3部分研究,即Human Against Machine with 10000 training images

数据集下载

数据处理工具

提取工具

  • extract/extract_pptx.py:从PowerPoint幻灯片中提取图像及其对应的唯一标识符。

过滤工具

  • filter/filter_annotation.py:使用OpenCV快速注释图像,将图像分类为不同的类型,并存储在CSV文件中。
  • filter/filter_inference.py:对子文件夹中的所有jpg文件进行分类,并将图像类型预测写入CSV文件。

统一工具

  • unify/unify_diagnoses.ipynb:使用pandas库清理和统一皮肤病变的诊断文本,将其归类为有限的诊断类别。

标准化工具

  • 使用Bash/ImageMagick命令对图像格式进行标准化处理,包括旋转、调整大小和裁剪等。

分割工具

  • segment/imagej_fiji_macros.ijm:包含用于加载、审查、修正和创建二值分割掩码的宏,用于与神经网络结合创建分割掩码。

引用信息

  • 若使用数据集或工具,请引用:
    • Tschandl, P., Rosendahl, C. & Kittler, H. The HAM10000 dataset, a large collection of multi-source dermatoscopic images of common pigmented skin lesions. Sci. Data 5, 180161 doi:10.1038/sdata.2018.161 (2018).
    • Tschandl, P. et al. Human–computer collaboration for skin cancer recognition. Nat Med 26, 1229–1234 (2020). https://doi.org/10.1038/s41591-020-0942-0
搜集汇总
数据集介绍
main_image_url
构建方式
HAM-10000数据集的构建过程融合了多种先进技术。首先,通过提取PowerPoint幻灯片中的图像数据,使用`extract_pptx.py`脚本进行图像和对应ID的提取。随后,利用神经网络对大规模图像集进行分类,通过`filter_annotation.py`脚本进行快速标注,并使用GoogLeNet模型在ImageNet上预训练后进行微调,实现了高达98.68%的分类准确率。此外,通过`unify_diagnoses.ipynb`笔记本对临床诊断文本进行标准化处理,确保数据的一致性。最后,使用ImageMagick工具对图像进行格式标准化处理,确保图像质量与格式的一致性。
使用方法
HAM-10000数据集适用于多种皮肤病研究场景,包括但不限于皮肤病分类、诊断模型训练和验证。用户可以通过Harvard Dataverse或ISIC Archive下载数据集,并根据提供的脚本和模型文件进行数据处理和分析。例如,使用`filter_inference.py`脚本可以对新图像进行自动分类,而`unify_diagnoses.ipynb`笔记本则可以帮助用户对诊断文本进行标准化处理。此外,数据集还提供了详细的文档和示例代码,方便用户快速上手和应用。
背景与挑战
背景概述
HAM-10000数据集,由Philipp Tschandl、Cliff Rosendahl和Harald Kittler等研究人员于2018年创建,旨在为皮肤病变图像分类提供一个大规模的多源数据集。该数据集是ISIC 2018挑战赛的一部分,包含10000张多源皮肤镜图像,涵盖了常见的色素性皮肤病变。HAM-10000的构建不仅推动了皮肤癌识别技术的发展,还为医学图像分析领域提供了宝贵的资源,促进了人机协作在皮肤癌诊断中的应用。
当前挑战
HAM-10000数据集在构建过程中面临多项挑战。首先,从PowerPoint幻灯片中提取图像并赋予唯一标识是一项技术难题。其次,对大量未标注的图像进行分类,特别是区分临床、宏观和皮肤镜图像,需要精细调整神经网络模型。此外,病理诊断的标准化和图像格式的统一也是构建过程中的重要挑战。最后,创建高效的分割掩码以支持后续分析,需要结合图像处理技术和神经网络模型,确保准确性和效率。
常用场景
经典使用场景
HAM-10000数据集在皮肤病学领域中被广泛用于皮肤病变分类和诊断。其经典使用场景包括利用深度学习模型对皮肤病变图像进行自动分类,以辅助临床医生进行快速且准确的诊断。通过该数据集,研究者可以训练和验证各种卷积神经网络模型,从而提高皮肤癌早期检测的准确性和效率。
解决学术问题
HAM-10000数据集解决了皮肤病学领域中皮肤病变分类的学术研究问题。传统上,皮肤病的诊断依赖于医生的经验和专业知识,而该数据集通过提供大规模、多源的皮肤病变图像,使得机器学习算法能够辅助甚至部分替代人工诊断。这不仅提高了诊断的准确性,还为皮肤病学的研究提供了新的工具和方法。
实际应用
在实际应用中,HAM-10000数据集被用于开发和优化皮肤病变诊断系统。这些系统可以部署在医院、诊所和移动设备上,帮助医生快速识别和分类皮肤病变,从而提高诊断效率和患者护理质量。此外,该数据集还支持远程医疗应用,使得偏远地区的患者也能获得高质量的皮肤病诊断服务。
数据集最近研究
最新研究方向
在皮肤病学领域,HAM-10000数据集的最新研究方向主要集中在利用深度学习技术进行皮肤病变分类和分割。该数据集通过整合多源皮肤镜图像,为研究人员提供了丰富的训练资源,促进了计算机辅助诊断系统的发展。近期,研究者们致力于通过细调神经网络模型,如GoogLeNet,以提高皮肤病变分类的准确性,并探索人机协作在皮肤癌识别中的应用。此外,数据集的标准化和分割技术的优化也是当前研究的热点,旨在提升临床诊断的效率和准确性。这些研究不仅推动了皮肤病学领域的技术进步,也为全球范围内的皮肤癌早期诊断提供了有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作