DERM12345
收藏arXiv2024-06-12 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2406.07426v1
下载链接
链接失效反馈官方服务:
资源简介:
DERM12345是一个包含12,345张皮肤病变图像的大型多源皮肤镜数据集,由土耳其的多个研究机构创建,旨在提供多样化的皮肤类型和病变分类。该数据集包含38个子类别,每张图像均为高分辨率,并附有专家注释,适用于深度学习和人工智能在皮肤疾病诊断中的应用。数据集的创建过程涉及使用多种设备和技术,确保图像质量和分类的准确性。DERM12345数据集的应用领域包括皮肤癌的早期检测、治疗规划和医学教育研究,有助于提高诊断的准确性和效率。
DERM12345 is a large-scale multi-source dermoscopic dataset consisting of 12,345 skin lesion images, developed by multiple research institutions in Turkey. It is designed to support diverse skin type representation and lesion classification tasks. The dataset comprises 38 sub-categories, with each high-resolution image accompanied by expert annotations, making it suitable for deep learning and artificial intelligence applications in skin disease diagnosis. The development process of DERM12345 utilized various devices and technologies to ensure image quality and the accuracy of lesion classification. The application fields of the DERM12345 dataset include early detection of skin cancer, treatment planning, and medical education research, which helps improve the accuracy and efficiency of disease diagnosis.
提供机构:
帝国理工学院代谢、消化和生殖系,健康科学大学海达尔帕萨努穆内研究与培训医院皮肤科,伊斯坦耶大学皮肤科
创建时间:
2024-06-12
搜集汇总
数据集介绍

构建方式
在皮肤镜影像数据集的构建领域,DERM12345数据集通过多中心合作的方式,汇集了土耳其三家医疗机构自2008年至2020年间收集的皮肤病变影像。数据采集过程综合运用了数字化皮肤镜设备(如MoleMax系列和FotoFinder系统)以及移动设备集成的手持皮肤镜(如配备Dermlite DL4附件的iPhone),确保了影像的高分辨率与多样性。构建过程中,研究团队实施了严格的质量控制流程,包括利用Python脚本进行自动化数据提取与去重,并由两位资深皮肤科专家依据临床诊断共识或组织病理学确认进行双重审核,最终筛选出符合清晰度、诊断确认及伦理标准的12,345张影像,形成了涵盖38种子类的结构化数据集。
特点
DERM12345数据集的显著特征在于其精细的层级分类体系与地理多样性。该数据集首次在科学文献中提出了包含5个超类、15个主类和38个子类的皮肤病变分类树,尤其注重对良性但易与恶性病变混淆的子类(如发育不良痣、先天性痣)进行独立标注,这为区分良恶性病变提供了更细致的训练基础。影像数据源自土耳其,这一地理位置涵盖了欧亚过渡带的多种皮肤类型,弥补了全球数据集中种族与地域代表性的不足。此外,数据集中包含了大量随访影像和罕见病变(如Spitz/Reed痣),增强了其在复杂临床场景下的实用性与研究价值。
使用方法
该数据集适用于医学与机器学习领域的多类研究与应用。临床医师可将其作为视觉参考资源,辅助皮肤病变的识别与诊断训练。研究人员可利用其精细的子类标注进行对比分析,尤其关注不同地域皮肤病变的表现差异。在人工智能领域,数据集支持分层学习等先进算法的开发,用于训练和验证皮肤病变分类模型,特别是针对良恶性病变的鉴别诊断。使用前,用户需遵循伦理规范,确保数据仅用于研究目的,并可结合元数据文件(CSV格式)中的分类信息进行模型训练与性能评估,以提升诊断工具的鲁棒性与泛化能力。
背景与挑战
背景概述
在皮肤癌人工智能辅助诊断领域,皮肤镜图像数据集是开发精准分类模型的关键基础。DERM12345数据集于2024年6月由帝国理工学院、健康科学大学等机构的研究团队发布,旨在解决现有数据集中皮肤病变亚类覆盖不足的局限性。该数据集收录了2008年至2020年间在土耳其采集的12,345张高分辨率皮肤镜图像,涵盖38种细分子类,并构建了包含5个超类、15个主类的多层次分类体系。其地理与种族多样性为模型泛化提供了宝贵资源,显著推动了皮肤病变精细化识别与早期诊断的研究进程。
当前挑战
该数据集致力于应对皮肤病变亚类识别的核心挑战,即如何区分视觉特征高度相似的良性与恶性病变,例如先天性痣与黑色素瘤的误判问题。在构建过程中,研究团队面临多重困难:需整合来自不同设备(如数字皮肤镜、手机连接手持皮肤镜)的图像,并统一其分辨率、光照与拍摄角度;同时,为确保数据质量,必须通过专家共识或组织病理学确认每张图像的诊断标签,并严格排除模糊、曝光不当或包含患者身份信息的图像。这些挑战凸显了大规模、高质量医学影像数据集创建的复杂性与严谨性要求。
常用场景
经典使用场景
在皮肤镜图像分析领域,DERM12345数据集凭借其精细的38亚类标注体系,为皮肤病变的细粒度分类研究提供了理想平台。该数据集最经典的应用场景在于训练和验证深度学习模型,特别是卷积神经网络,以区分形态相似但病理性质迥异的皮肤病变,如鉴别发育不良痣与早期黑色素瘤。其高分辨率图像和专家共识标注,使得模型能够学习到微妙的纹理、颜色和结构特征,从而提升分类的准确性与鲁棒性。
实际应用
在实际医疗场景中,DERM12345数据集可作为开发临床决策支持系统的核心训练资源。基于此数据集训练的模型,可集成到皮肤科医生的数字工作流中,为皮肤病变的初步筛查提供第二意见,尤其在医疗资源不均或经验不足的地区。它有助于标准化皮肤镜诊断流程,减少因医生经验差异导致的诊断不一致性,并可能通过早期识别高风险病变(如发育不良痣的恶变倾向)来改善患者预后。
衍生相关工作
该数据集的发布,预期将衍生出一系列专注于皮肤病变细粒度分类与分层诊断的经典研究工作。例如,研究者可利用其层级化标签结构开发层级分类网络或多任务学习模型。同时,其包含的众多易混淆良性亚类(如多种痣亚型)将推动针对模型“失败案例”或“决策边界”的深入分析研究,以提升模型在区分良恶性方面的特异性。此外,其地理和种族多样性也将催生针对模型跨群体泛化能力和公平性的评估研究。
以上内容由遇见数据集搜集并总结生成



