DermaBench

arXiv2026-01-20 更新2026-01-22 收录

下载链接：

https://doi.org/10.7910/DVN/Q4LBIW

下载链接

链接失效反馈

资源简介：

DermaBench是一个由临床医生标注的皮肤病视觉问答基准数据集，基于多样皮肤病图像（DDI）数据集构建，包含656张来自570名不同患者的临床图像，覆盖Fitzpatrick皮肤类型I-VI。数据集通过22个主要问题（单选、多选和开放式）进行标注，涵盖诊断、解剖部位、病变形态等多个维度，共产生约14,474条VQA式标注。数据集的创建过程包括多轮专家评审和共识制定，确保了标注的临床准确性和一致性。DermaBench旨在评估视觉语言模型在皮肤病学中的视觉理解和推理能力，为多模态AI研究提供可靠基准。

DermaBench is a clinician-annotated dermatological visual question answering (VQA) benchmark dataset built upon the diverse dermatological image (DDI) dataset. It contains 656 clinical images sourced from 570 unique patients, covering Fitzpatrick skin types I through VI. The dataset is annotated with 22 primary question categories including single-choice, multiple-choice, and open-ended questions, spanning multiple dimensions such as diagnosis, anatomical locations, lesion morphology and more, resulting in approximately 14,474 VQA-style annotations. The development of DermaBench involved multiple rounds of expert review and consensus formulation to guarantee the clinical accuracy and annotation consistency. DermaBench is designed to evaluate the visual understanding and reasoning capabilities of vision-language models in the field of dermatology, offering a reliable benchmark for multimodal AI research.

提供机构：

伦敦帝国理工学院·系统医学部; 伊斯坦布尔文明大学; 乌萨克研究与培训医院; 爱琴海大学; 伊斯坦布尔研究与培训医院; 伊普斯维奇医院; Medicana Atakoy医院

创建时间：

2026-01-20

AI搜集汇总

数据集介绍

构建方式

在皮肤科视觉问答领域，DermaBench的构建依托于多样化皮肤病图像数据集，通过六位皮肤科专家的协同标注完成。该数据集采用层次化标注框架，包含22个核心问题，涵盖诊断、解剖部位、病变形态等多个维度。标注过程借助AnnotatorMed平台实现动态问题呈现，确保标注效率与一致性。每幅图像由至少两位专家独立标注，并通过共识评审解决分歧，最终形成约1.447万条高质量视觉问答标注，为评估多模态模型的临床推理能力奠定基础。

特点

DermaBench的突出特点在于其临床可信性与多样性。数据集基于Fitzpatrick肤色分型I至VI的570名患者图像，均衡涵盖不同肤色与病变类型。标注内容由皮肤科专家直接撰写，避免了自动生成或网络爬取数据的可靠性问题。层次化问题设计融合了皮肤病学标准术语体系，支持单选择、多选择及开放式回答，既能满足分类任务需求，也能深入评估模型对形态细节的视觉理解与语言生成能力。

使用方法

该数据集以纯元数据形式发布，研究者需通过标识符关联原始图像源进行使用。其层次化标注结构支持多种任务范式，包括疾病分类、视觉问答及临床推理评估。数据集中未预设训练测试划分，便于根据研究目标灵活构建数据集。使用时可遵循配套的标准化提示模板，要求模型基于图像视觉信息严格遵循问题类型与临床术语规范生成答案，确保评估过程与真实临床决策流程对齐。

背景与挑战

背景概述

在医学人工智能领域，皮肤病学因其高度依赖视觉模式识别而成为多模态学习的前沿阵地。随着远程医疗和电子健康记录的普及，海量皮肤影像数据为AI辅助诊断提供了契机，然而现有数据集多聚焦于图像分类任务，缺乏能够评估模型视觉理解与临床推理能力的标准化基准。为此，帝国理工学院与土耳其多家医疗机构的研究团队于2025年联合发布了DermaBench数据集。该数据集基于多样性皮肤病图像库构建，包含656张涵盖菲茨帕特里克肤色I–VI型的临床图像，并由六位皮肤科专家通过分层标注框架生成了约1.45万条视觉问答对。DermaBench首次将多模态影像、专家验证的VQA标注、标准化本体标签与肤色公平性分析相结合，为皮肤病学视觉语言模型提供了可重复、临床对齐的评估基准，推动了该领域从单一分类向深度推理研究的范式转变。

当前挑战

DermaBench致力于解决皮肤病学视觉问答领域的核心挑战：现有数据集多依赖网络爬取或自动生成的监督信号，缺乏临床可信的专家标注，且无法系统评估模型对皮肤形态细粒度理解、语言 grounding 及跨肤色公平性等综合能力。在构建过程中，研究团队面临多重技术挑战：首先需设计符合临床诊断逻辑的分层标注架构，涵盖病灶形态、分布、颜色等22类主问题，并确保术语与标准皮肤病学框架一致；其次需通过多专家共识机制解决标注者间差异，利用动态渲染界面提升标注效率的同时维持医学严谨性；此外，数据集需在尊重上游图像许可的前提下，以纯元数据形式发布，并通过结构化链接机制实现与原图像的可靠关联，这对数据可用性与实验可复现性提出了更高要求。

常用场景

经典使用场景

在皮肤科人工智能研究中，DermaBench数据集被广泛用于评估视觉语言模型在皮肤病图像理解与推理方面的能力。该数据集通过专家标注的视觉问答对，为模型提供了细粒度的形态学分析、临床诊断推理及多模态语言接地任务的标准化测试平台。研究者利用其层次化问题架构，系统性地考察模型对皮损分布、颜色层次、表面特征等复杂视觉属性的解析精度，从而推动皮肤科专用多模态模型的发展与优化。

实际应用

在实际医疗场景中，DermaBench为远程皮肤病学、移动咨询及临床辅助决策系统提供了关键支持。该数据集可用于训练和验证视觉问答模型，帮助自动化系统生成结构化的皮损描述、辅助鉴别诊断，并提升初级医疗工作者对皮肤病的识别能力。其细致的形态学标注能够增强模型在真实临床工作流中的实用性，例如通过分析皮损分布与颜色特征，为皮肤癌筛查和良性病变分类提供可靠的辅助参考。

衍生相关工作

DermaBench的推出促进了皮肤科多模态研究的一系列经典工作。基于其标注框架，后续研究开发了更高效的视觉语言模型训练策略，如结合合成数据生成的资源高效模型。该数据集常被用于与DermaVQA、MM-Skin等现有资源的对比分析，以验证标注质量与临床一致性。此外，其层次化问题架构为SkinCon等细粒度概念数据集的标注对齐提供了参考，推动了皮肤科概念本体与视觉问答任务的深度融合与标准化。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集