Hospital Universitario Virgen Macarena Dermatological Dataset
收藏arXiv2025-05-22 更新2025-05-28 收录
下载链接:
http://arxiv.org/abs/2505.16773v1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集来自西班牙塞维利亚的公立医院Hospital Universitario Virgen Macarena,包含60个初级医疗中心收集的200,000张皮肤病病例图像,分为临床图像和皮肤镜图像,涵盖15种不同的皮肤病变类别,主要用于皮肤癌和其他皮肤病理学的诊断。数据集在收集过程中考虑了临床数据的完整性,并通过优先级分组确保了病变类别的紧急性。此外,为解决数据集的不平衡问题,采用了预处理流程,并通过合并ISIC Challenge数据集来增强模型的泛化能力。
This dataset is sourced from Hospital Universitario Virgen Macarena, a public hospital in Seville, Spain. It comprises 200,000 dermatological case images collected from 60 primary healthcare centers, which are categorized into clinical photographs and dermoscopic images. Covering 15 distinct skin lesion categories, this dataset is primarily intended for the diagnosis of skin cancer and other dermatological conditions. During the data collection process, the integrity of clinical data was fully considered, and priority-based grouping was implemented to ensure the coverage of skin lesion categories based on their clinical urgency. Furthermore, to address the class imbalance issue of the dataset, a dedicated preprocessing pipeline was adopted, and the generalization ability of models was enhanced by integrating with the ISIC Challenge dataset.
提供机构:
西班牙塞维利亚大学信号理论与通信系
创建时间:
2025-05-22
搜集汇总
数据集介绍

构建方式
Hospital Universitario Virgen Macarena Dermatological Dataset的构建源于西班牙塞维利亚一家公立医院多年积累的皮肤科病例数据,涵盖了来自60个初级医疗中心的20万张临床图像。研究团队通过严格的预处理流程筛选高质量皮肤镜图像,并采用优先级分类策略将15种皮肤病变分为三个临床紧急等级。为增强数据多样性,该数据集与ISIC Challenge数据集进行了跨源整合,通过病灶优先级映射解决了域偏移问题,最终形成具有临床诊断价值的标准化图像库。
特点
该数据集最显著的特征体现在其临床导向的设计理念,通过三级优先级分类体系(如黑色素瘤、基底细胞癌等列为最高优先级)实现了诊断需求与机器学习目标的深度耦合。数据组成上,皮肤镜图像占比60%,精确聚焦病灶区域;多中心采集策略保障了患者人群的多样性。独特的跨数据集融合技术有效缓解了单一数据源的偏差问题,而严格的图像质量控制机制确保了诊断一致性,为模型提供了兼具广度和深度的学习素材。
使用方法
该数据集特别适合用于对比研究领域自适应预训练策略的有效性。研究人员可采用两阶段应用范式:首先利用变分自编码器(VAE)进行无监督特征学习,生成面向皮肤镜图像的专用表征;随后冻结编码器权重,接入分类器进行监督微调。实验设计时建议设置ImageNet预训练模型作为对照基线,通过损失曲线、过拟合间隙等指标系统评估两种预训练方式在医学影像上的泛化能力差异。数据集的优先级标签体系可直接支持临床分诊系统的开发。
背景与挑战
背景概述
Hospital Universitario Virgen Macarena Dermatological Dataset是由西班牙塞维利亚大学和Virgen Macarena医院的研究团队于2025年创建的大规模皮肤病学图像数据集。该数据集包含来自60家初级医疗中心的20万张临床和皮肤镜图像,涵盖15种皮肤病变类型,包括黑色素瘤、基底细胞癌等关键病种。数据集创新性地采用了三级优先级分类体系,为皮肤癌诊断提供了结构化框架。作为医学影像分析领域的重要资源,该数据集特别针对自然图像预训练模型在皮肤病学领域适应性不足的问题,为开发领域自适应的自监督学习方法提供了重要基准。
当前挑战
该数据集面临的核心挑战体现在两个方面:领域适应性方面,传统基于ImageNet预训练的模型难以捕捉皮肤病学特有的细微病理特征,导致在验证集上出现16.67%的性能下降;数据构建方面,需要解决多中心图像质量差异(40%临床图像与60%皮肤镜图像)、类别不平衡(三类优先级病变样本量差异)以及跨数据集域偏移(与ISIC数据集整合时的特征对齐)等技术难题。此外,医学影像特有的标注一致性问题和临床相关性验证也构成了重要挑战。
常用场景
经典使用场景
Hospital Universitario Virgen Macarena Dermatological Dataset 在皮肤病变分类研究中扮演了关键角色,尤其适用于比较自监督学习与ImageNet预训练模型在医学影像领域的性能差异。该数据集通过提供15类优先级分层的皮肤病变图像,支持研究者开发能够识别黑色素瘤、基底细胞癌等高危病变的算法,同时避免了自然图像预训练带来的领域偏差问题。
衍生相关工作
基于该数据集的研究催生了多项经典工作,包括:1)知识蒸馏技术开发轻量化诊断模型(如黑色素瘤检测专用网络);2)可解释AI研究通过Grad-CAM生成病变热力图;3)跨机构数据融合方法(如与ISIC数据集联合训练),这些成果均发表于CVPR等顶级会议并形成临床工具链。
数据集最近研究
最新研究方向
在医学影像领域,特别是皮肤科诊断中,自监督学习与传统的ImageNet迁移学习之间的比较研究成为当前热点。Hospital Universitario Virgen Macarena Dermatological Dataset的最新研究聚焦于通过变分自编码器(VAE)从零开始训练,以提取皮肤病变的高价值特征,而非依赖ImageNet预训练模型。研究结果表明,尽管ImageNet预训练模型在初始阶段表现优异,但其容易过度拟合非临床相关特征,导致验证性能下降。相比之下,自监督学习方法展现出更稳定的学习曲线和更强的泛化能力,验证损失降低33.33%,且过拟合差距近乎为零。这一发现强调了领域特定特征提取在医学影像中的重要性,为未来开发更具临床适用性的AI诊断工具提供了新方向。
相关研究论文
- 1Mitigating Overfitting in Medical Imaging: Self-Supervised Pretraining vs. ImageNet Transfer Learning for Dermatological Diagnosis西班牙塞维利亚大学信号理论与通信系 · 2025年
以上内容由遇见数据集搜集并总结生成



