MM-Skin

arXiv2025-09-30 收录

下载链接：

https://github.com/ZwQ803/MM-Skin

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是首个大规模的多模态皮肤病学数据集，涵盖了三种成像方式（临床、皮肤镜和病理），包含了近1万份从专业教材中收集的高质量图像与文本配对。此外，数据集还包含了额外生成的遵循指令的视觉问答（VQA）样本（2.7万份），并在与其他皮肤病学数据集的比较中进行了基准测试。该数据集规模宏大，拥有1万份图像与文本配对，以及43,000张用于多数据集评估的总图像。其任务涵盖了视觉问答（VQA）和针对分类任务的监督微调（SFT）。

This dataset is the first large-scale multimodal dermatology dataset covering three imaging modalities: clinical, dermoscopic, and pathological. It contains nearly 10,000 high-quality image-text pairs collected from professional textbooks. Additionally, the dataset includes 27,000 additional instruction-following visual question answering (VQA) samples, and has been benchmarked against other dermatology datasets. With a substantial scale, this dataset features 10,000 image-text pairs and a total of 43,000 images for multi-dataset evaluation. Its supported tasks include visual question answering (VQA) and supervised fine-tuning (SFT) for classification tasks.

搜集汇总

数据集介绍

构建方式

MM-Skin的构建基于一个精心设计的半自动化流水线，从15本权威皮肤科学教科书中提取图像-文本对。首先，利用Adobe API和OCR技术进行原始图像与文字的提取，并通过正则表达式匹配实现子图与对应描述的精准对齐。随后，基于颜色直方图与局部二值模式特征对图像进行模态分类，将其划分为临床摄影、皮肤镜与病理切片三类，并辅以人工校验以确保准确性。最后，通过正则表达式从描述中提取人口统计属性，并移除含隐私标识或低质量的图像，从而构建出高质量的多模态数据集。

特点

MM-Skin是首个涵盖三种成像模态的大规模皮肤科多模态数据集，包含近10,000对高质量图像-文本对，以及超过27,000条指令跟随的视觉问答样本。其描述文字源自专业教科书，具有详尽的专业性和丰富的医学术语多样性，词汇覆盖广度显著优于现有数据集。此外，数据集按下游任务划分为图像描述、开放式问答和公平性评估三个子集，支持从细粒度图像解释到跨模态推理的多种应用场景，为皮肤科视觉语言模型的训练提供了坚实的数据基础。

使用方法

MM-Skin可直接用于微调皮肤科专用视觉语言模型，如论文中提出的SkinVL。使用时，图像-文本对可用于图像描述任务的监督学习；视觉问答样本则支持开放式问答训练，模型需基于图像内容生成专业且详细的回答。此外，研究人员可利用其模态分类标签进行跨模态迁移学习，或结合公共数据集进行联合训练以提升泛化能力。数据集还提供了人口统计属性，支持公平性评估，确保模型在不同人群中的表现均衡。

背景与挑战

背景概述

近年来，医学视觉语言模型在辅助临床决策方面展现出巨大潜力，然而在皮肤科这一高度依赖视觉特征的专科领域，专业化的视觉语言模型仍处于起步阶段。现有皮肤科多模态数据集，如Skincon和DermaVQA，普遍存在规模有限、模态单一、文本描述缺乏专业性等局限，难以支撑模型生成精细且具有临床意义的诊断分析。为填补这一空白，复旦大学计算机科学技术学院的研究团队于2025年提出了MM-Skin数据集，这是首个大规模、多模态的皮肤科专用图像-文本数据集，涵盖了临床摄影、皮肤镜和病理切片三种成像模态，包含近10,000对高质量图像-文本对及超过27,000个指令跟随型视觉问答样本。该数据集基于15本权威皮肤科教科书构建，为开发精准、可解释的皮肤科视觉语言模型提供了关键数据基础，对推动皮肤科人工智能辅助诊断系统的发展具有里程碑意义。

当前挑战

MM-Skin数据集的研究与构建面临多重挑战。在领域问题层面，皮肤科图像（尤其是临床和皮肤镜图像）通常缺乏像放射学报告那样的结构化文字描述，导致高质量图像-文本对的获取极为困难；现有皮肤科视觉问答数据集多采用封闭式分类或检索范式，难以处理开放式的复杂临床问题，限制了模型的推理与泛化能力。在构建过程中，研究团队需从15本教科书中提取并精确对齐图像与长文本描述，处理子图共享单一图注的错位问题；还需设计基于颜色直方图和局部二值模式特征的半自动分类流程，将图像准确划分为皮肤镜、临床和病理三种模态，并辅以人工校验以确保分类可靠性。此外，为生成多样化的视觉问答对，需利用大语言模型基于图文对生成多轮对话，同时设计严格规则避免引入未在原文中体现的信息，确保生成内容的质量与医学准确性。

常用场景

经典使用场景

在皮肤科视觉语言模型研究的浪潮中，MM-Skin数据集以其独特的专业性和多模态覆盖脱颖而出。该数据集最经典的使用场景是作为皮肤科视觉语言模型（VLM）的训练与微调基石，尤其适用于视觉问答（VQA）任务。研究者可利用其近万张涵盖临床、皮肤镜和病理三种成像模态的高质量图像-文本对，以及超过两万七千条指令遵循型问答样本，训练模型生成专业、细腻的皮肤病诊断描述。这一场景不仅解决了现有数据集文本描述专业化不足的痛点，还为模型在开放域临床问题上的推理能力提供了坚实支撑。

解决学术问题

MM-Skin数据集精准回应了皮肤科视觉语言模型领域长期悬而未决的学术困境。此前，皮肤科多模态数据集的匮乏严重制约了专用大语言模型的研发，现有资源如DermaVQA受限于单一模态、小样本量及低质量答案，难以支撑复杂临床推理。MM-Skin通过引入专业教科书来源的精细长文本描述，显著提升了模型对皮肤病特征的细粒度理解与生成能力。其意义在于，它为皮肤科VLM从简单的分类或检索任务迈向生成式、交互式临床辅助诊断提供了关键数据支撑，推动了该领域从通用医疗模型向专科化、可解释性方向的纵深演进。

衍生相关工作

MM-Skin数据集的问世催生了一系列具有影响力的衍生工作。其直接成果SkinVL模型作为首个公开的皮肤科专用视觉语言模型，在VQA、零样本分类及监督微调任务上均超越通用及医疗大模型，为后续研究树立了性能标杆。此外，该数据集启发了将专业教科书知识融入多模态预训练的新范式，推动了如基于LLM的问答对自动生成、低资源场景下的迁移学习等方向的发展。围绕MM-Skin，研究者还探索了跨模态特征学习与公平性评估（如性别、年龄维度的性能差异），进一步拓展了其在医疗AI伦理与可解释性研究中的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集