MM-Skin

Name: MM-Skin
Creator: 复旦大学
Published: 2025-05-10 00:03:47
License: 暂无描述

arXiv2025-05-10 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.06152v1

下载链接

链接失效反馈

官方服务：

资源简介：

MM-Skin是一个大规模的多模态皮肤科数据集，包含了临床、皮肤镜和病理三种成像模态，以及近10,000对高质量的图像-文本对，这些数据均从专业的皮肤科教材中收集而来。此外，该数据集还生成了超过27,000个多样化的指令跟随视觉问答（VQA）样本。MM-Skin的创建过程包括数据收集、图像-文本对对齐、模态分类、文本清洗和人口统计属性提取等步骤。该数据集的应用领域为皮肤科，旨在解决皮肤科视觉语言模型（VLM）的发展问题，特别是那些能够提供专业和详细诊断分析的能力。

MM-Skin is a large-scale multimodal dermatology dataset that includes three imaging modalities: clinical, dermoscopic, and pathological imaging, as well as nearly 10,000 high-quality image-text pairs all collected from professional dermatology textbooks. Additionally, the dataset contains over 27,000 diverse instruction-following visual question answering (VQA) samples. The construction process of MM-Skin involves several steps: data collection, image-text pair alignment, modality classification, text cleaning, and demographic attribute extraction. Targeting the dermatology domain, this dataset is developed to advance visual language models (VLMs) for dermatology, especially those capable of providing professional and detailed diagnostic analyses.

提供机构：

复旦大学

创建时间：

2025-05-10

原始信息汇总

数据集概述：MM-Skin

基本信息

标题: MM-Skin: Enhancing Dermatology Vision-Language Model with an Image-Text Dataset Derived from Textbooks
作者: Wenqi Zeng, Yuqi Sun, Chenxi Ma, Weimin Tan, Bo Yan
提交日期: 2025年5月9日
arXiv标识符: arXiv:2505.06152v1
DOI: 10.48550/arXiv.2505.06152

数据集描述

领域: 皮肤病学视觉语言模型（VLM）
规模:
- 包含近10,000个高质量图像-文本对
- 生成超过27,000个多样化的视觉问答（VQA）样本
数据来源: 专业教科书
图像模态: 临床、皮肤镜和病理学三种成像模态

数据集特点

专业性: 文本描述由专业教科书提供，具有高度专业性
多样性: 包含多种皮肤病图像和对应的详细描述
规模优势: VQA样本数量是目前最大皮肤病VQA数据集的9倍

应用与评估

开发模型: SkinVL（皮肤病专用视觉语言模型）
评估任务:
- 视觉问答（VQA）
- 监督微调（SFT）
- 零样本分类
评估范围: 8个不同数据集
性能表现: 在皮肤病相关任务上优于通用和医疗VLM模型

可用性

访问链接: MM-Skin数据集

搜集汇总

数据集介绍

构建方式

MM-Skin数据集的构建采用了半自动化流程，从15本专业皮肤病学教材中收集高质量图像-文本对，涵盖临床、皮肤镜和病理三种成像模态。通过Adobe API和OCR技术提取原始图像和文本，并利用正则表达式匹配实现图像与文本的精确对齐。图像模态分类基于颜色直方图和局部二值模式（LBP）特征，结合人工验证确保准确性。此外，通过大型语言模型（如Llama-3.1）生成多样化的视觉问答（VQA）样本，最终形成包含近10k图像-文本对和27k VQA样本的大规模数据集。

特点

MM-Skin是首个专注于皮肤病学的大规模多模态数据集，其核心特点包括：1）多模态覆盖，涵盖临床、皮肤镜和病理三种关键成像模态，提供全面的皮肤病视觉表征；2）专业权威性，所有数据源自资深皮肤科医师编撰的教材，确保文本描述的专业性和准确性；3）数据多样性，包含长文本描述、开放式问答及人口统计属性，支持细粒度医学推理；4）规模优势，VQA样本量达27k，是现有最大皮肤病VQA数据集的9倍，为模型训练提供充分支持。

使用方法

MM-Skin支持多种下游任务应用：1）视觉问答（VQA）任务中，模型基于图像生成专业诊断描述，适用于交互式皮肤病辅助诊断；2）监督微调（SFT）分类任务中，可提取视觉特征训练逻辑回归分类器，实现皮肤病类型的精准识别；3）零样本分类任务中，通过构建包含候选疾病的提示词，测试模型在未见数据上的泛化能力。研究人员还可结合公开数据集（如ISIC、HAM10000）进行跨模态迁移学习，或利用其长文本描述开发生成式皮肤病学助手。

背景与挑战

背景概述

MM-Skin数据集由复旦大学计算机科学学院智能信息处理重点实验室的研究团队于2025年提出，旨在解决皮肤科视觉语言模型（VLM）在专业诊断分析中的不足。该数据集是首个大规模、多模态的皮肤科数据集，包含临床、皮肤镜和病理三种成像模态，以及近10,000个高质量图像-文本对，这些数据均来自专业教材。MM-Skin的推出填补了皮肤科领域缺乏高质量多模态数据集的空白，为开发专业的皮肤科视觉语言模型提供了重要支持。

当前挑战

MM-Skin数据集面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，皮肤科视觉语言模型需要处理复杂的皮肤病特征和多模态图像数据，这对模型的视觉理解和语言生成能力提出了较高要求。构建过程中，研究团队需要从专业教材中提取高质量的图像和文本对，并确保数据的多样性和专业性。此外，生成多样化的视觉问答（VQA）样本也是一项挑战，需要通过大型语言模型（LLM）对图像-文本对进行多轮对话生成，同时保持生成的问答对的专业性和准确性。

常用场景

经典使用场景

在皮肤病学研究中，MM-Skin数据集被广泛用于训练和评估视觉-语言模型（VLMs），特别是在多模态图像分析领域。该数据集包含临床、皮肤镜和病理三种成像模态的近万张高质量图像-文本对，为研究者提供了丰富的专业描述和多样化的视觉数据。通过结合这些多模态数据，研究者能够开发出更精确的皮肤病诊断模型，提升模型在复杂皮肤病识别中的表现。

解决学术问题

MM-Skin数据集解决了皮肤病学领域视觉-语言模型训练中专业文本描述不足的问题。传统数据集通常仅提供标签或简短的描述，限制了模型生成详细诊断分析的能力。MM-Skin通过从专业教材中提取高质量的图像-文本对，填补了这一空白，使得模型能够学习到更丰富的皮肤病特征描述，从而在视觉问答（VQA）、监督微调（SFT）和零样本分类等任务中表现出色。

衍生相关工作

MM-Skin数据集的发布推动了多项皮肤病学视觉-语言模型的研究。例如，基于该数据集开发的SkinVL模型在多个基准测试中表现优异，超越了通用和医学领域的VLMs。此外，该数据集还启发了其他研究者开发类似的多模态皮肤病数据集，进一步丰富了该领域的研究资源。相关经典工作包括SkinGPT-4和DermaVQA等，这些研究均在MM-Skin的基础上进行了扩展和优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集