SynthHuman

Hugging Face2025-08-21 更新2025-08-22 收录

下载链接：

https://huggingface.co/datasets/Voxel51/SynthHuman

下载链接

链接失效反馈

官方服务：

资源简介：

SynthHuman数据集是一个高保真度的合成数据集，专为训练以人类为中心的计算机视觉模型而设计。它包含30万张高分辨率（384×512）的图像，涵盖三个主要任务：相对深度估计、表面法线估计和软前景分割。数据集中的图像是通过高保真度的程序生成技术创建的，包含了详细的人类表示，包括数以万计的单独3D发丝、详细的衣物、配饰和表情丰富的面孔。该数据集由微软剑桥研究院创建，并获得微软的资助。

创建时间：

2025-08-21

原始信息汇总

SynthHuman 数据集概述

数据集简介

SynthHuman 是一个用于训练以人为中心的计算机视觉模型的高保真合成数据集。该数据集包含 300,000 张高分辨率（384×512）图像，涵盖三个主要任务：相对深度估计、表面法线估计和软前景分割。

数据集详情

基本属性

语言：英语（en）
样本数量：3000 个样本
许可证：CDLA - Permissive - 2.0（https://github.com/microsoft/DAViD/blob/main/LICENSE-CDLA-2.0.txt）
规模分类：10K<n<100K

数据集来源

策划机构：微软研究院剑桥分部
资助机构：微软
共享机构：微软
存储库：https://aka.ms/DAViD
相关论文：DAViD: Data-efficient and Accurate Vision Models from Synthetic Data (arXiv:2507.15365)

数据集结构

内容组成

数据集包含 300,000 张合成图像，平均分布在三个类别中：

面部场景（100,000 张）
上半身场景（100,000 张）
全身场景（100,000 张）

样本特征

每个样本包含：

RGB 渲染图像
软前景掩码（alpha 通道）
表面法线（3 通道）
深度地面实况注释

多样性特征

数据集在以下方面具有多样性：

人体姿势和表情
环境和光照条件
物理外观（体型、服装、配饰）
摄像机视角

主要用途

直接用途

设计用于以下以人为中心的密集预测任务：

相对深度估计：预测人体对象的每像素深度值
表面法线估计：预测每像素表面法线向量（xyz 分量）
软前景分割：生成软 alpha 掩码以将人物与背景分离

适用范围限制

不应用于：

识别或辨认特定个体
创建欺骗性或误导性的合成人类内容
可能侵犯隐私或对真实个体造成伤害的应用
超出三个指定密集预测任务之外的模型训练

数据集创建

创建理由

旨在解决现有人类中心计算机视觉数据集的局限性：

由于依赖摄影测量或噪声传感器而导致的地面实况注释不完美
由于捕捉野外数据的挑战而导致的主体和环境多样性有限
无法捕捉头发丝、反射表面和细微几何特征等细节

数据来源

数据生成过程涉及从以下方面采样：

面部/身体形状（来自训练来源和 3572 个扫描库）
表情和姿势（来自 AMASS、MANO 等来源）
纹理（来自高分辨率面部扫描，具有基于表情的动态皱纹贴图）
发型（548 个丝级 3D 发型模型，每个包含 10 万+发丝）
配饰（36 副眼镜，57 件头饰）
服装（50+ 件上衣）
环境（HDRIs 和 3D 环境的混合）

注释信息

注释过程

作为合成数据集，注释在渲染过程中以编程方式生成，确保 RGB 图像与相应地面实况之间的完美对齐。

注释特点

特别关注：

头发表示：创建基于丝几何的体素网格体积，然后使用行进立方体转换为粗略代理网格以生成可解释的法线向量
透明表面：数据集提供控制，包括或不包括透明表面（如眼镜镜片）的深度和法线
软前景掩码：以像素级精度生成，包括发丝和其他精细结构的部分透明度

潜在限制

已知局限性

可能未完全代表人类多样性的所有方面
合成数据的性质可能无法完全捕捉所有真实场景和边缘情况
在某些人口群体上的准确性可能较低
失败案例包括极端光照条件、服装上的印刷图案、纹身和罕见的尺度变化

使用建议

应在多样化的真实人群上测试基于此数据训练的模型
考虑伦理影响和潜在偏见
可为特定挑战性场景补充真实世界数据

引用信息

BibTeX: bibtex @misc{saleh2025david, title={{DAViD}: Data-efficient and Accurate Vision Models from Synthetic Data}, author={Fatemeh Saleh and Sadegh Aliakbarian and Charlie Hewitt and Lohit Petikam and Xiao-Xian and Antonio Criminisi and Thomas J. Cashman and Tadas Baltrušaitis}, year={2025}, eprint={2507.15365}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.15365}, }

APA: Saleh, F., Aliakbarian, S., Hewitt, C., Petikam, L., Criminisi, A., Cashman, T. J., & Baltrusaitis, T. (2025). DAViD: Data-efficient and Accurate Vision Models from Synthetic Data. arXiv preprint arXiv:2507.15365.

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，合成数据正成为解决真实数据标注难题的关键途径。SynthHuman数据集采用高保真程序化生成技术构建，通过采样自3572个扫描源的面部与身体形态、AMASS和MANO的动作库、高分辨率动态皱纹纹理，以及548种发丝级三维发型模型，结合多样化环境光照与服饰配件，经过72小时集群渲染生成30万张384×512分辨率图像，实现了像素级精准的深度、法线和软分割标注。

特点

该数据集的核心价值体现在其前所未有的精细度与多样性。不同于基于扫描的合成数据，SynthHuman通过程序化生成实现了发丝级几何细节（单发型含数十万根独立发丝）、动态皱纹映射和半透明材质处理，同时均衡覆盖面部、上半身及全身三类场景各10万样本，在姿态、光照、外观等多维度保持高度多样性，为密集预测任务提供了近乎完美的标注质量。

使用方法

研究者可通过FiftyOne框架快速部署该数据集，使用pip安装环境后，调用load_from_hub接口加载Voxel51/SynthHuman即可获取图像及其多模态标注。数据集专为人类中心计算机视觉任务设计，支持相对深度估计、表面法线预测和软前景分割三大任务，用户可通过调整max_samples等参数灵活控制数据规模，并利用fo.launch_app进行可视化分析。

背景与挑战

背景概述

合成人类数据集由微软研究院剑桥团队于2025年创建，旨在解决计算机视觉领域中人本密集预测任务的标注质量与数据多样性问题。该数据集通过程序化生成技术构建了30万张高分辨率合成图像，涵盖相对深度估计、表面法线预测和软前景分割三大核心任务。其创新性在于采用高保真程序生成而非扫描重建，能够精确呈现发丝级细节与动态皱纹映射，为训练高效精准的视觉模型提供了前所未有的数据基础，显著推动了合成数据在真实场景应用中的可靠性。

当前挑战

该数据集致力于解决真实人本视觉数据中存在的标注噪声、细节缺失与多样性不足等核心问题，其构建过程面临多重技术挑战：需在程序化生成中平衡超大规模发丝模型（单发型含10万+三维发丝）的渲染效率与物理真实性；需通过动态皱纹映射与透明表面处理实现像素级精确的几何标注；还需克服合成数据与真实场景间的域差异，确保模型对光照异常、服饰纹理及人口统计学多样性的泛化能力。

常用场景

经典使用场景

在计算机视觉领域，SynthHuman数据集为人类中心密集预测任务提供了高质量的合成训练资源。该数据集最经典的应用场景包括训练模型进行相对深度估计、表面法线预测以及软前景分割，这些任务要求模型能够精确理解人体在三维空间中的几何结构和外观细节。通过程序化生成的高保真人类图像，研究者能够在受控环境中开发出更精准的视觉算法。

衍生相关工作

基于SynthHuman数据集，研究者开发了DAViD等经典工作，证明了合成数据在训练高效视觉模型方面的优势。这些工作探索了如何利用程序化生成的数据替代大规模真实数据，在保持模型性能的同时显著降低数据收集和标注成本。相关研究还推动了合成数据生成技术的发展，包括头发建模、透明表面处理等细分领域的创新方法。

数据集最近研究