five

Derm1M|医学图像分析数据集|皮肤疾病诊断数据集

收藏
arXiv2025-05-14 更新2025-05-16 收录
医学图像分析
皮肤疾病诊断
下载链接:
https://github.com/SiyuanYan1/MAKE
下载链接
链接失效反馈
资源简介:
Derm1M是一个包含403,563对皮肤图像和文本描述的数据集,用于零样本皮肤疾病分类、概念标注和跨模态检索等任务。数据集来源于教育资料,包括PubMed和医学教科书,以及YouTube和Twitter等网络资源。该数据集为MAKE框架提供了丰富的训练数据,使其在多个皮肤疾病诊断任务中显著优于现有的视觉语言预训练模型。
提供机构:
澳大利亚莫纳什大学工程学院和AIM for Health Lab
创建时间:
2025-05-14
原始信息汇总

MAKE数据集概述

基本信息

  • 全称:Multi-Aspect Knowledge-Enhanced Vision-Language Pretraining for Zero-shot Dermatological Assessment
  • 研究领域:计算机视觉与自然语言处理的交叉领域,专注于皮肤病学评估
  • 核心目标:通过多方面的知识增强视觉-语言预训练框架,实现零样本皮肤病学任务

数据集特点

  • 数据规模:403,563个皮肤病学图像-文本对
  • 知识整合
    • 将临床叙述分解为知识增强的子标题
    • 将子标题与相关图像特征连接
    • 自适应地优先考虑不同的知识方面

性能表现

  • 评估任务
    • 零样本皮肤病分类
    • 概念标注
    • 跨模态检索
  • 评估数据集:8个数据集
  • 性能:显著优于现有最先进的视觉-语言预训练模型

相关资源

  • 代码与预训练模型:将在本仓库发布
  • 预训练数据:可在Derm1M Repository获取

引用文献

  1. MAKE相关论文:

    • 标题:MAKE: Multi-Aspect Knowledge-Enhanced Vision-Language Pretraining for Zero-shot Dermatological Assessment
    • 作者:Siyuan Yan等
    • 年份:2025
    • arXiv链接:https://arxiv.org/abs/2505.09372
  2. Derm1M数据集相关论文:

    • 标题:Derm1M: A Million-scale Vision-Language Dataset Aligned with Clinical Ontology Knowledge for Dermatology
    • 作者:Siyuan Yan等
    • 年份:2025
    • arXiv链接:https://arxiv.org/abs/2503.14911
AI搜集汇总
数据集介绍
main_image_url
构建方式
Derm1M数据集的构建过程体现了多模态医学数据整合的前沿理念。研究团队从PubMed医学文献、教科书等教育资源中精选了100,487对皮肤图像-文本数据,并结合YouTube和Twitter等开放平台数据,最终形成包含403,563对样本的大规模数据集。为确保数据的临床价值,团队创新性地采用大型语言模型对原始文本进行知识增强处理,生成疾病特征文本和临床概念文本两个专业维度,并通过句子分解技术将冗长的临床描述转化为聚焦不同知识侧面的子文本集合。这种多层次的文本处理策略有效突破了传统视觉语言模型中77个token的文本长度限制。
特点
该数据集最显著的特点是实现了临床知识与视觉特征的深度耦合。每对数据不仅包含原始皮肤图像和对应描述,还附有经过LLM提取的标准疾病术语层级关系和关键临床概念标注。数据覆盖范围广泛,涉及114种皮肤疾病的诊断特征,并特别注重保留临床诊断中关键的形态学描述、分布模式和相关症状等多方面信息。与常规医学数据集相比,其创新性地采用诊断引导的加权机制,能自适应地突出不同临床特征的诊断价值,模拟皮肤科医生的决策过程。
使用方法
Derm1M数据集专为zero-shot学习场景设计,支持三种核心应用模式。在疾病分类任务中,研究者可直接利用预训练的视觉语言模型,通过比对测试图像与各类疾病描述文本的嵌入相似度实现诊断。对于临床概念标注任务,数据集提供的多层次文本表征允许模型识别皮损的细粒度特征。在跨模态检索方面,优化后的对齐机制能实现皮肤图像与相关医学文献的精准互检索。使用时应加载经过知识增强的Derm1M†版本,并配套论文提出的MAKE框架中的多维度对比损失函数和诊断引导加权模块,以充分发挥数据集的潜在价值。
背景与挑战
背景概述
Derm1M数据集由Monash University的AIM for Health Lab团队于2025年构建,旨在解决皮肤病学领域多模态数据融合的挑战。该数据集包含403,563个皮肤病图像-文本对,数据来源于PubMed、医学教科书、YouTube和Twitter等多种渠道。其核心研究问题聚焦于如何通过视觉-语言预训练模型,实现皮肤病学的零样本诊断与跨模态理解。Derm1M通过整合丰富的临床知识描述与视觉特征,显著提升了皮肤病自动诊断系统的性能,在皮肤疾病分类、概念标注和跨模态检索等任务中展现出卓越的泛化能力,为皮肤病学AI研究提供了重要的基准资源。
当前挑战
Derm1M数据集面临的主要挑战体现在两个方面:领域问题方面,皮肤病诊断需要同时解析皮肤病变的视觉特征与复杂的临床描述,传统视觉-语言模型因文本长度限制难以捕捉完整的临床叙述;构建过程方面,皮肤病学数据缺乏标准化的图像-文本对,原始临床叙述多为非结构化文本,且网络爬取的数据存在噪声干扰。此外,如何有效建模临床知识中病变形态、分布模式和伴随症状等多方面信息的复杂关联,以及区分不同知识维度对诊断的贡献度,都是该数据集构建过程中需要解决的关键技术难题。
常用场景
经典使用场景
Derm1M数据集在皮肤科医学影像分析领域具有广泛的应用价值,其经典使用场景包括零样本皮肤疾病分类、概念标注和跨模态检索。该数据集通过整合403,563个皮肤图像-文本对,为研究人员提供了丰富的多模态数据资源。在零样本分类任务中,Derm1M支持模型直接识别多种皮肤疾病,无需额外标注数据。概念标注任务则利用数据集中详细的临床描述,帮助模型理解与诊断相关的关键视觉特征。跨模态检索功能使得系统能够在图像和文本之间建立精确的对应关系,为临床决策提供支持。
实际应用
在实际临床应用方面,Derm1M数据集为开发智能皮肤病诊断系统提供了重要支持。基于该数据集训练的模型可以辅助医生进行皮肤病筛查,特别是在医疗资源匮乏地区发挥重要作用。系统能够根据皮肤病变图像自动生成诊断建议,并提供相关的临床概念解释,增强诊断过程的可解释性。此外,数据集支持开发的检索系统可以帮助医生快速查找相似病例和医学文献,提高诊疗效率。这些应用有望显著提升皮肤病诊断的准确性和可及性。
衍生相关工作
Derm1M数据集已经催生了一系列重要的衍生研究工作。MAKE框架作为该数据集的首个视觉语言预训练方法,引入了多方面知识增强对比学习等创新技术。后续研究在此基础上进一步发展了细粒度对齐机制和诊断引导的加权策略。数据集还被用于评估多种先进的视觉语言模型在皮肤病学任务中的表现,包括CLIP、SigLIP和CoCa等架构的适应性研究。这些工作共同推动了皮肤病学多模态AI研究的进步,为后续研究提供了宝贵的基准和参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

实时天气预报-全国天气预报查询-天气查询-天气api接口-天气预警-天气预报查询-天气预报

天气查询API提供全球城市精准天气数据,支持实时查询及多日预报,返回包括城市、国家、地区、日期、最高/最低温度、天气描述、湿度、风速、风向和降水概率等详细气象信息,采用JSON结构化数据格式,响应快速稳定,适用于各类天气应用、出行规划和数据分析场景。

腾讯云市场 收录

中国1km分辨率逐月平均气温数据集(1901-2024)

该数据为中国逐月平均温度数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。数据单位为0.1 ℃。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录