Derm1M

Name: Derm1M
Creator: 莫纳什大学, 新加坡国立大学, 维也纳医科大学
Published: 2025-03-19 13:30:01
License: 暂无描述

arXiv2025-03-19 更新2025-03-21 收录

下载链接：

http://arxiv.org/abs/2503.14911v1

下载链接

链接失效反馈

官方服务：

资源简介：

Derm1M数据集是由莫纳什大学等机构开发的大规模皮肤科图像-文本对数据集，包含超过103万张皮肤图像和对应的文本描述。该数据集涵盖了390种皮肤状况，并利用专家协作开发的标准化本体组织知识，提供130个临床相关概念标签，是迄今为止最丰富的皮肤科知识资源。数据来源于多样化的教育材料，包括YouTube视频、PubMed文章、医学论坛等，经过严格的数据预处理和质量控制，确保了数据的质量和多样性。

The Derm1M dataset is a large-scale dermatological image-text pair dataset developed by Monash University and other institutions. It comprises over 1.03 million skin images paired with their corresponding textual descriptions, covering 390 distinct skin conditions. The dataset organizes its knowledge using a standardized ontology developed through expert collaboration, provides 130 clinically relevant concept tags, and stands as the most comprehensive dermatological knowledge resource to date. Sourced from diverse educational materials including YouTube videos, PubMed articles, medical forums and other relevant resources, the dataset has undergone strict data preprocessing and quality control procedures to ensure its quality and diversity.

提供机构：

莫纳什大学, 新加坡国立大学, 维也纳医科大学

创建时间：

2025-03-19

搜集汇总

数据集介绍

构建方式

Derm1M数据集的构建过程分为五个主要步骤：首先，从多样化的教育资源中收集皮肤科数据，包括YouTube视频、PubMed文章、医学论坛帖子、教育材料和公开数据集。其次，通过一系列工具对数据进行预处理，包括图像去噪、皮肤图像选择、子图检测和文本过滤。接着，进行图像和文本的清洗，确保数据的准确性和一致性。然后，通过多模态对齐技术建立精确的图像-文本对。最后，利用专家开发的标准化本体知识对文本描述进行增强，生成包含丰富临床信息的图像-文本对。

特点

Derm1M数据集的特点在于其规模庞大且覆盖广泛，包含1,029,761个图像-文本对，涵盖了390种皮肤疾病和130个临床概念。数据来源多样，包括YouTube频道、PubMed文章、医学论坛、公开数据集和教育材料。数据集中的文本描述平均长度为41个词，提供了丰富的上下文信息。此外，Derm1M通过专家开发的本体结构，将371种皮肤疾病按层次组织，支持多粒度学习，使其与临床实践紧密结合。

使用方法

Derm1M数据集的使用方法广泛，适用于多种任务，包括零样本皮肤疾病分类、临床概念识别、少样本/全样本学习以及跨模态检索。研究人员可以利用该数据集预训练视觉-语言模型，如DermLIP，以提升皮肤科AI的诊断能力。此外，Derm1M的丰富临床信息和本体结构使其成为解释性诊断和多模态临床任务的有力工具。通过结合图像和文本信息，Derm1M能够支持复杂的临床决策，如皮肤病变的视觉问答和皮肤色调分析。

背景与挑战

背景概述

Derm1M是首个大规模皮肤病学视觉-语言数据集，由Monash University、National University of Singapore和Medical University of Vienna的研究团队于2025年发布。该数据集包含1,029,761个皮肤图像-文本对，涵盖390种皮肤病和130个临床概念，旨在通过结合视觉和语言信息，推动皮肤病学AI的发展。Derm1M的构建基于多样化的教育资源，包括YouTube视频、PubMed文章、医学论坛、公共数据集和教育材料，并通过专家开发的皮肤病学本体知识进行结构化。该数据集的发布填补了皮肤病学领域缺乏大规模、多模态数据的空白，显著提升了皮肤病诊断和研究的精度与效率。

当前挑战

Derm1M在构建过程中面临多重挑战。首先，皮肤病学领域的高度复杂性和多样性要求数据集必须覆盖广泛的皮肤病类型及其临床特征，这对数据的收集和标注提出了极高的要求。其次，图像与文本的对齐问题尤为突出，尤其是在多模态数据中，如何确保图像与其对应的临床描述准确匹配是一个技术难点。此外，数据来源的多样性带来了噪声和不一致性，需要通过复杂的预处理和清洗流程来确保数据质量。最后，构建过程中还需解决医学术语的标准化问题，以确保数据的一致性和可解释性。这些挑战共同构成了Derm1M数据集构建的核心难题。

常用场景

经典使用场景

Derm1M数据集作为首个大规模皮肤病视觉-语言数据集，广泛应用于皮肤病诊断、分类及多模态学习任务。其经典使用场景包括零样本皮肤病分类、少样本学习、跨模态检索等。通过结合图像与丰富的文本描述，Derm1M能够支持复杂的皮肤病诊断任务，尤其是在缺乏标注数据的情况下，表现出显著的性能优势。

衍生相关工作

Derm1M的发布推动了多模态皮肤病AI模型的发展。基于该数据集，研究者开发了DermLIP系列模型，显著提升了皮肤病分类、概念识别及跨模态检索的性能。此外，Derm1M的结构化知识体系为后续研究提供了基础，衍生出多种基于临床概念的模型解释方法，如概念瓶颈模型（CBM），进一步推动了皮肤病AI的可解释性与临床应用。

数据集最近研究