SynthHuman
收藏SynthHuman 数据集概述
数据集简介
SynthHuman 是一个用于训练以人为中心的计算机视觉模型的高保真合成数据集。该数据集包含 300,000 张高分辨率(384×512)图像,涵盖三个主要任务:相对深度估计、表面法线估计和软前景分割。
数据集详情
基本属性
- 语言:英语(en)
- 样本数量:3000 个样本
- 许可证:CDLA - Permissive - 2.0(https://github.com/microsoft/DAViD/blob/main/LICENSE-CDLA-2.0.txt)
- 规模分类:10K<n<100K
数据集来源
- 策划机构:微软研究院剑桥分部
- 资助机构:微软
- 共享机构:微软
- 存储库:https://aka.ms/DAViD
- 相关论文:DAViD: Data-efficient and Accurate Vision Models from Synthetic Data (arXiv:2507.15365)
数据集结构
内容组成
数据集包含 300,000 张合成图像,平均分布在三个类别中:
- 面部场景(100,000 张)
- 上半身场景(100,000 张)
- 全身场景(100,000 张)
样本特征
每个样本包含:
- RGB 渲染图像
- 软前景掩码(alpha 通道)
- 表面法线(3 通道)
- 深度地面实况注释
多样性特征
数据集在以下方面具有多样性:
- 人体姿势和表情
- 环境和光照条件
- 物理外观(体型、服装、配饰)
- 摄像机视角
主要用途
直接用途
设计用于以下以人为中心的密集预测任务:
- 相对深度估计:预测人体对象的每像素深度值
- 表面法线估计:预测每像素表面法线向量(xyz 分量)
- 软前景分割:生成软 alpha 掩码以将人物与背景分离
适用范围限制
不应用于:
- 识别或辨认特定个体
- 创建欺骗性或误导性的合成人类内容
- 可能侵犯隐私或对真实个体造成伤害的应用
- 超出三个指定密集预测任务之外的模型训练
数据集创建
创建理由
旨在解决现有人类中心计算机视觉数据集的局限性:
- 由于依赖摄影测量或噪声传感器而导致的地面实况注释不完美
- 由于捕捉野外数据的挑战而导致的主体和环境多样性有限
- 无法捕捉头发丝、反射表面和细微几何特征等细节
数据来源
数据生成过程涉及从以下方面采样:
- 面部/身体形状(来自训练来源和 3572 个扫描库)
- 表情和姿势(来自 AMASS、MANO 等来源)
- 纹理(来自高分辨率面部扫描,具有基于表情的动态皱纹贴图)
- 发型(548 个丝级 3D 发型模型,每个包含 10 万+发丝)
- 配饰(36 副眼镜,57 件头饰)
- 服装(50+ 件上衣)
- 环境(HDRIs 和 3D 环境的混合)
注释信息
注释过程
作为合成数据集,注释在渲染过程中以编程方式生成,确保 RGB 图像与相应地面实况之间的完美对齐。
注释特点
特别关注:
- 头发表示:创建基于丝几何的体素网格体积,然后使用行进立方体转换为粗略代理网格以生成可解释的法线向量
- 透明表面:数据集提供控制,包括或不包括透明表面(如眼镜镜片)的深度和法线
- 软前景掩码:以像素级精度生成,包括发丝和其他精细结构的部分透明度
潜在限制
已知局限性
- 可能未完全代表人类多样性的所有方面
- 合成数据的性质可能无法完全捕捉所有真实场景和边缘情况
- 在某些人口群体上的准确性可能较低
- 失败案例包括极端光照条件、服装上的印刷图案、纹身和罕见的尺度变化
使用建议
- 应在多样化的真实人群上测试基于此数据训练的模型
- 考虑伦理影响和潜在偏见
- 可为特定挑战性场景补充真实世界数据
引用信息
BibTeX: bibtex @misc{saleh2025david, title={{DAViD}: Data-efficient and Accurate Vision Models from Synthetic Data}, author={Fatemeh Saleh and Sadegh Aliakbarian and Charlie Hewitt and Lohit Petikam and Xiao-Xian and Antonio Criminisi and Thomas J. Cashman and Tadas Baltrušaitis}, year={2025}, eprint={2507.15365}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.15365}, }
APA: Saleh, F., Aliakbarian, S., Hewitt, C., Petikam, L., Criminisi, A., Cashman, T. J., & Baltrusaitis, T. (2025). DAViD: Data-efficient and Accurate Vision Models from Synthetic Data. arXiv preprint arXiv:2507.15365.




