didsr/ssynth_data-test

Name: didsr/ssynth_data-test
Creator: didsr
Published: 2026-05-05 17:10:29
License: 暂无描述

Hugging Face2026-05-05 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/didsr/ssynth_data-test

下载链接

链接失效反馈

官方服务：

资源简介：

S-SYNTH是一个开源、灵活的皮肤模拟框架，用于通过数字渲染解剖学启发的多层、多组分皮肤和生长病变模型，快速生成合成皮肤模型和图像。该框架可以生成高度详细的3D皮肤模型和数字渲染的合成图像，涵盖多种人类肤色，并完全控制底层参数和图像形成过程。数据集主要用于增强有限的病人数据集和识别AI性能趋势，适用于皮肤分割任务的训练或测试预训练的AI模型。

S-SYNTH is an open-source, flexible skin simulation framework to rapidly generate synthetic skin models and images using digital rendering of an anatomically inspired multi-layer, multi-component skin and growing lesion model. It allows for generation of highly-detailed 3D skin models and digitally rendered synthetic images of diverse human skin tones, with full control of underlying parameters and the image formation process. The dataset is intended to facilitate augment limited patient datasets and identify AI performance trends, suitable for training or testing pre-trained AI models in dermatologic analysis tasks.

提供机构：

didsr

搜集汇总

数据集介绍

构建方式

S-SYNTH数据集基于开源的柔性皮肤仿真框架构建，通过数字渲染解剖学启发下的多层、多组件皮肤模型与生长性病变模型，快速生成合成皮肤图像。该框架支持对毛发伪影、血容量分数、病变形状、黑素体分数、每像素样本数及光照条件等参数进行精细控制，从而生成高细节的3D皮肤模型与多样肤色的合成图像。数据集按参数层级组织为目录结构，每份样本包含配对的原图与分割掩码，并提供裁剪版本以适应多尺度病灶分析。

特点

该数据集的核心特色在于其参数化生成能力，能够系统性地模拟皮肤病变在多种生理与成像条件下的视觉变异，涵盖肤色、毛发、血供及光照等关键因素。数据集规模介于1K至10K之间，采用CC0许可协议，完全开放使用。每张图像均附带精确的病灶分割掩码，支持微调与评估预训练模型在皮肤病变分割任务中的表现，特别适用于探索皮肤外观对AI算法性能影响的趋势分析。

使用方法

用户可通过HuggingFace的数据加载器直接访问数据集，例如使用`datasets.load_dataset("didsr/ssynth_data", split="output_10k")`获取测试子集。此外，数据集也支持直接下载，其目录结构清晰标注了各项参数，便于用户按需筛选特定条件下的样本。该数据适用于训练或测试预训练模型以完成皮肤病变分割任务，尤其适合用于增强有限真实患者数据集、纠正标注错误以及评估AI在不同肤色、毛发和病变形态下的性能差异。

背景与挑战

背景概述

在皮肤影像分析领域，高质量标注数据的匮乏是制约人工智能模型性能提升的核心瓶颈之一，尤其在不同肤色、病变形态及成像条件下的泛化能力评估中尤为突出。为此，美国食品药品监督管理局（FDA）下属的多学科研究团队——包括Andrea Kim、Niloufar Saharkhiz、Elena Sizikova等人——于2024年推出了S-SYNTH数据集。该数据集基于解剖学启发的多层、多组分皮肤与生长性病变模型，通过数字渲染技术快速生成合成皮肤图像及其对应的分割掩码，旨在为皮肤病变分割任务提供可控、可扩展的仿真数据。S-SYNTH的出现不仅填补了真实患者数据在多样性、隐私性和标注一致性方面的不足，更为评估皮肤外观因素（如肤色、毛发、血氧浓度等）对AI模型性能的影响提供了标准化平台，对推动医学影像人工智能的公平性与鲁棒性研究具有重要意义。

当前挑战

S-SYNTH数据集所应对的核心挑战涉及两个层面。在领域问题层面，皮肤病变分割模型常因训练数据中肤色、病变形态及成像条件分布不均，导致在真实临床中的泛化能力受限；合成数据的引入虽可缓解数据稀缺，却面临仿真与现实差距引发的性能误判风险，即模拟场景若未能涵盖真实患者的全部变异度，将导致模型评估失真。在构建过程层面，团队需精确设计并参数化多层皮肤模型、病变生长模型及成像过程，以平衡渲染效率与生物物理真实性；同时，生成包含毛发伪影、照明变化、样本采样密度等多维度可控变量的合成图像，并通过裁剪确保病变尺寸多样性，对计算资源与参数空间探索提出了严苛要求。

常用场景

经典使用场景

在皮肤影像分析领域，数据集的匮乏与多样性不足长期制约着模型泛化能力的提升。S-SYNTH作为一种基于解剖学启发的多层多组分皮肤与生长性病变模型的合成数据框架，能够高效生成涵盖多种肤色、毛发伪影、血液分数、病变形态及光照条件的高保真合成图像与配对分割掩码。其经典使用场景聚焦于皮肤病变分割任务中的模型训练与测试，通过提供参数可控且标注完备的合成样本，有效弥补真实患者数据规模小、标注成本高、多样性受限等短板，进而助力研究者探索不同皮肤外观因素对人工智能分割性能的影响。

实际应用

在实际临床应用中，S-SYNTH展现出显著价值，尤其是在皮肤病变筛查与辅助诊断系统的开发与验证阶段。它能够作为数据增强工具，为有限的真实患者样本补充多样化合成病例，提升模型对肤色变化、毛发遮挡和复杂光照条件的适应能力。同时，该数据集可用于预训练深度学习分割模型，使其在部署前已具备对多种合成病变形态的识别能力，从而降低对大规模真实标注数据的依赖。此外，在医疗设备监管科学中，S-SYNTH支持虚拟临床试验设计，帮助评估不同人群亚组中人工智能产品的性能一致性，进而辅助监管机构制定更包容的审批标准。

衍生相关工作

围绕S-SYNTH数据集衍生了一系列具有影响力的相关工作。其框架本身延续了FDA开发的VICTRE（虚拟影像临床试验）管线思路，将乳腺成像中的计算建模方法创新性地应用于皮肤模拟，形成了一套完整的合成皮肤模型生成与渲染管线。研究者可在该数据集基础上，进一步开发针对多重病变类型、不同成像模态或多时序演变过程的合成数据生成策略。此外，S-SYNTH催生了关于合成数据与真实数据联合训练策略的研究、对抗性样本生成与鲁棒性评估的方法探索，以及基于参数化模拟的模型偏差检测工具的研制，有力推动了计算皮肤病学与监管科学领域的交叉融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集