five

DermaSynth

收藏
Hugging Face2025-02-15 更新2025-02-16 收录
下载链接:
https://huggingface.co/datasets/abdurrahimyilmaz/DermaSynth
下载链接
链接失效反馈
官方服务:
资源简介:
DermaSynth数据集是一个包含丰富的合成图像-文本对的皮肤科数据集。它利用公开的皮肤科数据集创建了图像和问题的配对,以及相应的答案。这个数据集特别适用于皮肤病变的问题回答任务,包含了训练集的划分信息,共有约9.2万个示例。

The DermaSynth dataset is a dermatology dataset that contains a rich collection of synthetic image-text pairs. It constructs paired images, questions and their corresponding answers based on publicly available dermatology datasets. This dataset is specifically tailored for skin lesion question answering tasks, and includes training set split information, with a total of approximately 92,000 examples.
创建时间:
2025-02-08
原始信息汇总

数据集概述

数据集名称

DermaSynth

语言

  • 英文 (en)

许可

cc-by-nc-4.0

数据规模

  • 10K < n < 100K

任务类别

  • 问题回答 (question-answering)

数据特征

  • image_id: 字符串 (string)
  • image_path: 字符串 (string)
  • dataset_origin: 字符串 (string)
  • question: 字符串 (string)
  • answer: 字符串 (string)

数据拆分

  • 训练集 (train)
    • 文件大小: 43420729 字节
    • 示例数量: 92020

下载大小

14384301 字节

数据集大小

43420729 字节

配置

  • 默认配置 (default)
    • 数据文件
      • 拆分: 训练集 (train)
      • 路径: data/train-*

标签

  • 皮肤科 (dermatology)
  • 皮肤病变 (skin_lesion)

相关链接

引用信息

bibtex @article{yilmaz2025dermasynth, title={DermaSynth: Rich Synthetic Image-Text Pairs Using Open Access Dermatology Datasets}, author={Yilmaz, Abdurrahim and Yuceyalcin, Furkan and Gokyayla, Ece and Choi, Donghee and Erdem, Ozan and Demircali, Ali Anil and Varol, Rahmetullah and Kirabali, Ufuk Gorkem and Gencoglan, Gulsum and Posma, Joram M and Temelkuran, Burak}, journal={arXiv preprint arXiv:2502.00196}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
DermaSynth数据集的构建,是通过搜集公开的皮肤病学数据集,并运用合成图像技术生成丰富的图像-文本对。该数据集的构建不仅包含了真实的皮肤病变图像,还涵盖了相应的描述性文本,旨在为机器学习模型提供充足的训练素材,以提升其在皮肤病学领域的问答能力。
特点
该数据集的主要特点在于其合成性,它通过模拟真实的皮肤病变情况,生成了一系列高质量的合成图像,并配有详细的描述性问答对。这使得数据集在多样性、真实性和规模上均具有显著优势,尤其适用于训练和评估皮肤病变识别与问答系统。此外,数据集遵循cc-by-nc-4.0许可,保证了合法的使用和共享。
使用方法
使用DermaSynth数据集时,用户首先需要从指定的GitHub链接中下载数据集。数据集分为训练集,其大小为43MB,包含了92020个样本。用户可以直接利用数据集中的图像-文本对进行模型的训练和测试。此外,数据集的配置文件提供了对数据集的详细描述,有助于用户更好地理解和应用该数据集。
背景与挑战
背景概述
在皮肤病学领域,图像与文本的结合对于病变识别与诊断至关重要。DermaSynth数据集应运而生,由Yilmaz等研究人员于2025年创建,旨在为皮肤病变的识别提供丰富的合成图像-文本对。该数据集基于开放获取的皮肤病学数据集构建,主要解决的是皮肤病变识别中的数据不足问题,对促进该领域的研究具有显著影响力。
当前挑战
DermaSynth数据集在构建过程中面临的挑战主要包括:1) 如何生成高质量的合成图像,保持与真实皮肤病变图像的一致性;2) 如何构建有效的图像-文本对,以供问答系统训练,提升其诊断的准确性。此外,数据集的多样性和规模也对其应用范围和泛化能力提出了考验。
常用场景
经典使用场景
在皮肤病学领域,DermaSynth数据集以其丰富的图像-文本对资源,成为训练与评估图像问答系统的经典场景。该数据集通过合成皮肤病变图像与相关问题的配对,为研究人员提供了一种可靠的方式来开发和测试计算机视觉与自然语言处理相结合的模型。
实际应用
在实际应用中,DermaSynth数据集使得开发辅助医生进行皮肤病变诊断的人工智能系统成为可能。此类系统有助于提高医疗诊断的精确度,减少误诊率,同时减轻医生的工作负担,具有极高的临床应用价值。
衍生相关工作
基于DermaSynth数据集,研究者们已衍生出一系列相关工作,包括但不限于皮肤病变自动识别、图像分割以及多模态信息融合等。这些研究进一步拓展了数据集的应用范围,推动了医学图像分析领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作