SynthHuman Dataset

github2025-07-22 更新2025-07-23 收录

下载链接：

https://github.com/microsoft/DAViD

下载链接

链接失效反馈

官方服务：

资源简介：

SynthHuman数据集包含大约300,000张合成人类的图像，带有前景alpha掩码、绝对深度、表面法线和相机内参的真实标注。数据集分为三个相机场景：面部、上半身和全身，每个场景大约有100,000张图像。数据是通过最新的合成数据生成流程生成的，该流程已用于创建多个数据集：Face Synthetics、SimpleEgo和SynthMoCap。由于基于图形的渲染流程，真实标注是像素级的，具有完美准确性。

The SynthHuman dataset contains approximately 300,000 synthetic human images, with ground-truth annotations including foreground alpha masks, absolute depth maps, surface normals, and camera intrinsic parameters. The dataset is divided into three camera scenarios: face, upper body, and full body, with roughly 100,000 images per scenario. The data is generated via a state-of-the-art synthetic data generation pipeline that has been used to create multiple datasets including Face Synthetics, SimpleEgo, and SynthMoCap. Owing to the graphics-based rendering pipeline, the ground-truth annotations are pixel-level and feature perfect accuracy.

创建时间：

2025-06-26

原始信息汇总

DAViD数据集概述

数据集基本信息

名称：SynthHuman Dataset
数据量：约300,000张合成人类图像
标注类型：前景alpha掩膜、绝对深度、表面法线和相机内参
数据场景：
- 面部：约100,000张
- 上半身：约100,000张
- 全身：约100,000张
数据格式：
- rgb_0000000.png：RGB图像
- alpha_0000000.png：前景alpha掩膜
- depth_0000000.exr：绝对深度图像（厘米单位）
- normal_0000000.exr：表面法线图像（XYZ）
- cam_0000000.txt：相机内参矩阵

数据下载与使用

下载方式：通过download_data.py脚本下载
数据分块：60个压缩文件，每个约8.75GB，总下载量约330GB
可视化工具：visualize_data.py脚本
许可证：CDLA-2.0许可证

发布模型

任务与模型：
- 软前景分割：
  - Base版本：下载链接
  - Large版本：下载链接
- 相对深度估计：
  - Base版本：下载链接
  - Large版本：下载链接
- 表面法线估计：
  - Base版本：下载链接
  - Large版本：下载链接
- 多任务模型：
  - Large版本：下载链接
许可证：MIT许可证

演示运行

支持任务：相对深度估计、软前景分割、表面法线估计
运行方式：
- 使用多任务模型
- 使用单独模型
依赖安装：pip install -r requirement.txt

引用

如需使用SynthHuman数据集或DAViD模型，请引用： bibtex @misc{saleh2025david, title={{DAViD}: Data-efficient and Accurate Vision Models from Synthetic Data}, author={Fatemeh Saleh and Sadegh Aliakbarian and Charlie Hewitt and Lohit Petikam and Xiao-Xian and Antonio Criminisi and Thomas J. Cashman and Tadas Baltrušaitis}, year={2025}, eprint={2507.15365}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.15365}, }

搜集汇总

数据集介绍

构建方式

SynthHuman数据集通过先进的图形渲染技术构建，包含约30万张合成人类图像，涵盖面部、上半身和全身三种视角场景，每种场景各含约10万张样本。该数据集采用高精度渲染管线生成，确保每张图像均附带像素级精确标注，包括前景alpha遮罩、绝对深度、表面法线及相机内参矩阵。数据生成流程源自微软成熟的合成数据平台，曾成功应用于Face Synthetics等多个知名数据集的创建。

特点

该数据集以多模态标注为显著特征，每个样本包含RGB图像及四种精确的计算机视觉标注：二值前景分割掩码采用PNG格式存储；深度信息以EXR格式保存厘米级绝对Z深度；表面法线以三维向量形式记录；相机内参矩阵则提供标准化文本格式。数据分布均衡，面部、全身和上半身样本数量严格匹配，所有标注均通过程序化渲染实现零误差，为模型训练提供理想基准。特别值得注意的是，深度与法线信息采用工业级EXR格式存储，保留了高动态范围数据的完整精度。

使用方法

数据集以60个分卷压缩包形式发布，总容量约330GB，用户可通过Python脚本选择性下载完整数据集或单个测试样本。配套提供的可视化工具脚本演示了EXR深度图、法线图等专业数据的正确加载方式，支持用户快速验证数据完整性。为便于模型开发，官方同步发布基于ViT架构的预训练模型，涵盖前景分割、深度估计和表面法线预测三大任务，支持以ONNX格式直接部署。研究人员可通过修改demo.py脚本参数，灵活调用多任务联合模型或独立任务模型进行推理验证。

背景与挑战

背景概述

SynthHuman数据集由微软研究团队于2025年推出，作为计算机视觉领域的重要资源，旨在通过合成数据提升模型训练的效率和精度。该数据集包含约30万张合成人类图像，涵盖面部、上半身和全身三种视角，每张图像均配有精确的前景alpha遮罩、绝对深度、表面法线和相机内参等标注信息。其核心技术依托于微软开发的图形渲染管线，该技术已成功应用于Face Synthetics、SimpleEgo等多个知名数据集。SynthHuman的推出为人体姿态估计、三维重建等任务提供了高质量的基准数据，显著缓解了真实数据标注成本高昂的行业痛点。

当前挑战

在解决领域问题方面，SynthHuman需应对合成数据与真实场景间的域适应挑战，包括光照条件、材质纹理等细节的逼真度差异。构建过程中面临多重技术难点：大规模合成数据的生成需要平衡计算资源与渲染质量；多模态标注的精确对齐对图形引擎提出极高要求；300GB数据量的分布式存储与高效加载方案设计亦属关键挑战。此外，如何确保合成数据的多样性以覆盖复杂现实场景，仍是持续优化的方向。

常用场景

经典使用场景

在计算机视觉领域，SynthHuman数据集因其高质量的合成人类图像和精确的标注信息，成为训练和验证视觉模型的理想选择。该数据集广泛应用于人体姿态估计、深度感知和表面法线预测等任务，特别是在需要大量标注数据的场景下，其合成数据的优势尤为突出。通过提供多样化的视角和光照条件，SynthHuman为模型训练提供了丰富的视觉上下文，显著提升了模型的泛化能力。

衍生相关工作

SynthHuman数据集衍生了一系列经典工作，包括微软的Face Synthetics、SimpleEgo和SynthMoCap等项目。这些工作进一步扩展了合成数据的应用范围，推动了计算机视觉领域的技术创新。例如，Face Synthetics专注于面部图像的生成与标注，而SimpleEgo则致力于解决第一人称视角下的视觉任务。

数据集最近研究