didsr/ssynth_data
收藏Hugging Face2026-05-06 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/didsr/ssynth_data
下载链接
链接失效反馈官方服务:
资源简介:
S-SYNTH是一个开源的、灵活的皮肤模拟框架,用于通过数字渲染解剖学启发的多层、多组分皮肤和生长病变模型,快速生成合成皮肤模型和图像。它允许生成高度详细的3D皮肤模型和不同人类肤色的数字渲染合成图像,并完全控制底层参数和图像形成过程。该框架可用于生成带有注释(包括分割掩码)的合成皮肤图像,具有毛发伪影、血液分数、病变形状、黑色素小体分数、每像素采样(用于渲染)和光照条件等变化。
S-SYNTH is an open-source, flexible skin simulation framework to rapidly generate synthetic skin models and images using digital rendering of an anatomically inspired multi-layer, multi-component skin and growing lesion model. It allows for generation of highly-detailed 3D skin models and digitally rendered synthetic images of diverse human skin tones, with full control of underlying parameters and the image formation process. The framework can be used to generate synthetic skin images with annotations (including segmentation masks) with variations of hair artifact, blood fraction, lesion shape, melanosome fraction, sample per pixel (for rendering), and lighting condition.
提供机构:
didsr
搜集汇总
数据集介绍

构建方式
S-SYNTH数据集的构建基于一种开源且灵活的皮肤模拟框架,该框架通过数字渲染技术,模拟解剖学上具有启发性的多层、多组分皮肤模型及生长性病变模型。具体而言,数据集生成过程涉及对毛发伪影、血液分数、病变形状、黑色素体分数、每像素采样数及光照条件等参数的系统性变化,从而产生高度精细的三维皮肤模型及其对应的数字渲染合成图像。每张图像均配备精确的分割掩码,包括完整和裁剪两个版本,并记录裁剪尺寸信息。
特点
该数据集的核心特点在于其多维度的参数化设计,能够模拟人类皮肤色调的多样性,并全面控制底层参数与图像形成过程。数据集包含超过10,000个样本,覆盖毛发伪影、血液分数、病变形状、黑色素体分数、每像素采样数以及光照条件等多种变异因素,从而为皮肤病变分割等任务提供高度可定制化的合成数据。此外,其开放的许可协议(CC0)确保了数据的广泛可获取性与再使用性。
使用方法
S-SYNTH数据集主要用于增强有限的患者真实数据集,并评估人工智能在皮肤病变分割等任务中的性能趋势。用户可直接从HuggingFace平台下载数据,或通过HuggingFace的`datasets`库中的`load_dataset`函数进行加载,例如`data_test = load_dataset("didsr/ssynth_data", split="output_10k")`。该数据集支持用于训练或测试预训练的人工智能模型,但需注意其不能替代真实患者数据用于性能判定。
背景与挑战
背景概述
S-SYNTH数据集由美国食品药品监督管理局(FDA)的Andrea Kim、Niloufar Saharkhiz、Elena Sizikova等研究人员于2024年创建,旨在解决皮肤影像分析中真实患者数据稀缺、标注困难以及偏见评估等核心问题。该数据集基于解剖学启发的多层、多组分皮肤与生长病变模型,通过数字渲染技术高效生成高保真合成皮肤图像及配套的病变分割掩模。作为开放源码的皮肤模拟框架,S-SYNTH能够灵活调控毛发、血氧分数、黑素体含量、光照条件等关键参数,为评估人工智能模型在不同肤色和病变形态下的性能表现提供了标准化平台,推动了医学影像领域仿真数据的研究与应用。
当前挑战
该数据集所面临的挑战首先在于解决医疗领域皮肤病变分割任务中真实样本不足的困境。真实临床数据通常数量有限,且标注成本高昂、标注一致性差,尤其在多样肤色和病变形态的覆盖上存在巨大偏差,限制了AI模型的泛化能力。其次,在构建过程中,S-SYNTH需要克服仿真数据与真实患者数据之间的语义鸿沟,确保模拟图像在解剖学细节、病变表现和成像变异性上逼近临床真实场景。此外,参数空间的巨大组合可能引入模型误判风险,如何平衡仿真数据的可控性与真实性,避免因过度简化或特定参数偏差导致的性能错误估计,也是该框架在设计与优化中必须应对的核心挑战。
常用场景
经典使用场景
在医学图像分析领域,皮肤病变分割是计算机辅助诊断的核心任务之一。S-SYNTH数据集作为一个高度灵活的开源皮肤模拟框架,能够基于解剖学启发的多层、多组分皮肤模型及生长性病变模型,快速生成合成皮肤图像及其对应的分割掩膜。其经典使用场景在于,通过系统性地调控毛发伪影、血液分数、病变形态、黑色素体分数、采样率及光照条件等关键参数,生成多样化的合成数据,从而在缺乏大规模真实患者数据的情况下,有效扩充训练集并评估AI模型在不同皮肤外观下的分割性能。
衍生相关工作
基于S-SYNTH框架,一系列相关研究得以拓展。该数据集直接关联美国FDA的虚拟影像临床试验工具包(VICTRE),后者已在乳腺成像AI评估中验证了数字孪生方法的有效性。S-SYNTH的论文发表于MICCAI 2024,提供了详细的生成模型与参数空间分析。此外,其开源代码库允许研究者自定义皮肤模型与渲染条件,衍生出针对不同病变类型(如黑色素瘤、基底细胞癌)的合成数据生成方法,以及探索光照校正、毛发去除等预处理技术对分割性能影响的工作。这些衍生产物共同构建了一个基于仿真驱动的皮肤病学AI评估生态。
数据集最近研究
最新研究方向
在医学影像分析领域,合成数据生成技术正成为缓解真实临床数据稀缺性与隐私限制的关键路径。S-SYNTH数据集基于解剖学启发的多层多组分皮肤模型与病变生长模拟框架,通过数字渲染技术生成带有精细标注(如分割掩码)的合成皮肤图像,系统涵盖毛发伪影、黑色素与血氧分数、光照条件等可调参数。其前沿方向聚焦于利用可控的合成数据评估皮肤病变分割人工智能模型在不同肤色、病变形态及成像场景下的性能差异,尤其关注皮肤颜色对算法公平性的潜在影响,从而推动临床级AI的鲁棒性验证与偏差补偿。该数据集以开放科学范式(CC0许可)发布,为皮肤影像领域的模拟临床试验与模型泛化性研究提供了标准化基准。
以上内容由遇见数据集搜集并总结生成



