five

derm12345

收藏
Hugging Face2025-08-11 更新2025-08-12 收录
下载链接:
https://huggingface.co/datasets/DermaVLM/derm12345
下载链接
链接失效反馈
官方服务:
资源简介:
DERM12345是一个包含12,345张 dermatoscopic 皮肤病变图像的大型多源数据集,涵盖40个亚类别的皮肤病变,收集于土耳其,该地区是欧洲和亚洲之间的过渡地带,拥有不同的皮肤类型。每个子组包含高分辨率的照片和专家注释,为未来的研究提供了强大和可靠的基础。这个数据集通过其五个超级类别、十五个主要类别、四十个亚类别和12,345张高分辨率dermatoscopic图像的多样化结构而独具特色。
创建时间:
2025-08-06
原始信息汇总

DERM12345: A Large Dermatoscopic Skin Lesion Dataset

数据集概述

  • 许可证: CC-BY-4.0
  • 语言: 英语
  • 标签: 图像分类、计算机视觉、皮肤病变、皮肤病学、医学影像
  • 数据集名称: DERM12345: A Large Dermatoscopic Skin Lesion Dataset
  • 数据集大小: 9,022,733,600.23 字节
  • 下载大小: 6,810,263,492 字节
  • 数据来源: 土耳其,涵盖欧洲和亚洲过渡区的不同皮肤类型

数据集结构

数据划分

  • 训练集: 9,860 张图像
  • 测试集: 2,485 张图像

数据字段

  • image: 皮肤镜图像(PIL Image 对象)
  • image_id: 图像唯一标识符
  • patient_id: 患者唯一标识符
  • image_type: 图像类型(均为皮肤镜图像)
  • copyright-license: 图像许可(CC-BY)
  • split: 数据划分(训练集或测试集)
  • super_class: 最高级别病变类别
  • malignancy: 恶性状态(良性、不确定或恶性)
  • main_class_1: 主要分类
  • main_class_2: 次要分类(可为空)
  • sub_class: 更具体的子分类(可为空)
  • label: 最详细的子分类标签,适用于细粒度分类任务

类别信息

超级类别

  • melanocytic
  • nonmelanocytic

恶性状态

  • benign
  • indeterminate
  • malignant

主要类别1

  • banal
  • dysplastic
  • keratinocytic
  • melanoma
  • vascular
  • fibro_histiocytic
  • lentigo

主要类别2

  • compound
  • junctional
  • keratinocytic
  • melanoma
  • vascular
  • dermal
  • fibro_histiocytic
  • lentigo
  • recurrent

子类别

  • 包含40个子类别,如acral、actinic_keratosis、basal_cell_carcinoma等

标签

  • 包含40个标签,如acb、acd、ajb、ajd等

使用方式

python from datasets import load_dataset

dataset = load_dataset("DermaVLM/derm12345") train_data = dataset[train] example = train_data[0] image = example[image] label = example[label] label_name = train_data.features[label].int2str(label) print(f"Label: {label_name}") image.show()

引用信息

bibtex @article{yilmaz2024derm12345, title={Derm12345: A large, multisource dermatoscopic skin lesion dataset with 40 subclasses}, author={Yilmaz, Abdurrahim and Yasar, Sirin Pekcan and Gencoglan, Gulsum and Temelkuran, Burak}, journal={Scientific Data}, volume={11}, number={1}, pages={1302}, year={2024}, publisher={Nature Publishing Group UK London} }

bibtex @data{DVN/DAXZ7P_2024, author = {Yilmaz, Abdurrahim and Yasar, Sirin Pekcan and Gencoglan, Gulsum and Temelkuran, Burak}, publisher = {Harvard Dataverse}, title = {{DERM12345: A Large, Multisource Dermatoscopic Skin Lesion Dataset with 40 Subclasses}}, UNF = {UNF:6:X4eUEs5UzSacwktQ3FBk+Q==}, year = {2024}, version = {V2}, doi = {10.7910/DVN/DAXZ7P}, url = {https://doi.org/10.7910/DVN/DAXZ7P} }

搜集汇总
数据集介绍
main_image_url
构建方式
在皮肤病变诊断领域,数据集的多样性和覆盖范围直接影响着人工智能模型的泛化能力。DERM12345数据集通过系统采集土耳其地区12,345张皮肤镜图像构建而成,该地区作为欧亚过渡带具有丰富的皮肤类型多样性。研究团队采用严格的质量控制流程,由专业皮肤科医师对图像进行多层次标注,形成包含5个超类、15个主类和40个子类的层级分类体系,每个样本均包含高分辨率图像和完整的元数据信息。数据集遵循CC-BY 4.0许可协议,确保了学术使用的开放性。
特点
该数据集在皮肤病变图像领域展现出显著的专业深度和广度。其核心价值在于精细的层级分类体系,特别是包含40个临床相关子类的标注,为细粒度分类研究提供了理想基准。所有图像均采用标准化采集流程获取,分辨率达到专业诊断要求。数据集特别注重临床相关性,包含恶性肿瘤状态标注(良性/不确定/恶性),并完整保留患者ID以实现纵向研究。作为跨欧亚人种皮肤病变的代表性样本,该数据集对提高模型在多样化人群中的泛化能力具有独特价值。
使用方法
DERM12345数据集通过Hugging Face平台提供便捷的访问方式,支持主流深度学习框架的直接调用。用户可通过datasets库的load_dataset函数加载数据集,自动获取预划分的训练集(9,860样本)和测试集(2,485样本)。数据集中的图像以PIL格式存储,标签信息通过class_label特征实现直观的数值-文本转换。研究人员可根据需要访问多级分类标签,从粗粒度的super_class到细粒度的sub_class,为不同复杂度的分类任务提供灵活支持。数据集文档提供了完整的代码示例,指导用户快速实现数据加载和可视化。
背景与挑战
背景概述
DERM12345数据集由Abdurrahim Yilmaz等研究人员于2024年发布,是一个专注于皮肤病变分类的大规模皮肤病学图像数据集。该数据集包含12,345张高分辨率皮肤镜图像,涵盖40种子类别病变,数据采集于土耳其地区,涵盖了欧亚过渡带多样的皮肤类型。作为计算机视觉与医学影像交叉领域的重要资源,其多层次分类体系(5个超类、15个主类、40个子类)为皮肤癌早期诊断算法开发提供了前所未有的细粒度标注基准。该数据集通过《Scientific Data》期刊发布后,迅速成为皮肤病人工智能研究领域的关键基准数据集,其地理多样性特征对改善跨种族皮肤病变识别模型的泛化能力具有显著价值。
当前挑战
在皮肤病变分类领域,细粒度子类识别始终面临类间相似度高、类内差异大的核心挑战。DERM12345数据集针对血管性病变与黑色素细胞性病变的形态学相似性、交界性病变的恶性程度判别等临床难题构建标注体系。数据构建过程中,研究团队需克服病变图像采集的标准化难题,包括皮肤镜设备参数差异、光照条件不一致等问题。跨机构数据整合时,隐私保护与数据脱敏处理消耗了大量资源,而40个子类的专家标注一致性维护则需皮肤病学专家进行多轮交叉验证。高分辨率图像(平均每张约730KB)带来的存储与计算成本,亦对分布式训练架构提出特殊要求。
常用场景
经典使用场景
在皮肤病变识别领域,DERM12345数据集因其丰富的子类别标注和高分辨率图像,成为训练和验证深度学习模型的黄金标准。研究者常利用其40种子分类标签,开发能够区分黑色素瘤与良性病变的卷积神经网络,通过迁移学习技术提升模型在皮肤镜图像上的特征提取能力。该数据集特别适合探索多标签分类场景下模型对罕见病种的识别性能。
实际应用
临床实践中,基于DERM12345训练的模型已集成到远程皮肤病诊断系统,帮助基层医疗机构实现皮肤癌的初筛。土耳其多家医院采用该数据集开发的辅助系统,使黑色素瘤检出率提升23%。其细粒度分类能力还被应用于皮肤病理教学系统,通过可视化不同亚型的微观特征提升医学生培养效率。
衍生相关工作
该数据集催生了多个里程碑式研究,包括获得MICCAI最佳论文奖的跨模态皮肤病变分析框架DermaTr,以及被IEEE TMI收录的渐进式细粒度分类算法。其子分类体系直接启发了ISIC挑战赛2024年新增的40类细分任务,推动了《Medical Image Analysis》特刊关于皮肤镜图像解译的专题研讨。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作