SynthHuman Dataset
收藏github2025-07-22 更新2025-07-23 收录
下载链接:
https://github.com/microsoft/DAViD
下载链接
链接失效反馈官方服务:
资源简介:
SynthHuman数据集包含大约300,000张合成人类的图像,带有前景alpha掩码、绝对深度、表面法线和相机内参的真实标注。数据集分为三个相机场景:面部、上半身和全身,每个场景大约有100,000张图像。数据是通过最新的合成数据生成流程生成的,该流程已用于创建多个数据集:Face Synthetics、SimpleEgo和SynthMoCap。由于基于图形的渲染流程,真实标注是像素级的,具有完美准确性。
The SynthHuman dataset contains approximately 300,000 synthetic human images, with ground-truth annotations including foreground alpha masks, absolute depth maps, surface normals, and camera intrinsic parameters. The dataset is divided into three camera scenarios: face, upper body, and full body, with roughly 100,000 images per scenario. The data is generated via a state-of-the-art synthetic data generation pipeline that has been used to create multiple datasets including Face Synthetics, SimpleEgo, and SynthMoCap. Owing to the graphics-based rendering pipeline, the ground-truth annotations are pixel-level and feature perfect accuracy.
创建时间:
2025-06-26
原始信息汇总
DAViD数据集概述
数据集基本信息
- 名称:SynthHuman Dataset
- 数据量:约300,000张合成人类图像
- 标注类型:前景alpha掩膜、绝对深度、表面法线和相机内参
- 数据场景:
- 面部:约100,000张
- 上半身:约100,000张
- 全身:约100,000张
- 数据格式:
rgb_0000000.png:RGB图像alpha_0000000.png:前景alpha掩膜depth_0000000.exr:绝对深度图像(厘米单位)normal_0000000.exr:表面法线图像(XYZ)cam_0000000.txt:相机内参矩阵
数据下载与使用
- 下载方式:通过
download_data.py脚本下载 - 数据分块:60个压缩文件,每个约8.75GB,总下载量约330GB
- 可视化工具:
visualize_data.py脚本 - 许可证:CDLA-2.0许可证
发布模型
- 任务与模型:
- 许可证:MIT许可证
演示运行
- 支持任务:相对深度估计、软前景分割、表面法线估计
- 运行方式:
- 使用多任务模型
- 使用单独模型
- 依赖安装:
pip install -r requirement.txt
引用
如需使用SynthHuman数据集或DAViD模型,请引用: bibtex @misc{saleh2025david, title={{DAViD}: Data-efficient and Accurate Vision Models from Synthetic Data}, author={Fatemeh Saleh and Sadegh Aliakbarian and Charlie Hewitt and Lohit Petikam and Xiao-Xian and Antonio Criminisi and Thomas J. Cashman and Tadas Baltrušaitis}, year={2025}, eprint={2507.15365}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.15365}, }
搜集汇总
数据集介绍

构建方式
SynthHuman数据集通过先进的图形渲染技术构建,包含约30万张合成人类图像,涵盖面部、上半身和全身三种视角场景,每种场景各含约10万张样本。该数据集采用高精度渲染管线生成,确保每张图像均附带像素级精确标注,包括前景alpha遮罩、绝对深度、表面法线及相机内参矩阵。数据生成流程源自微软成熟的合成数据平台,曾成功应用于Face Synthetics等多个知名数据集的创建。
特点
该数据集以多模态标注为显著特征,每个样本包含RGB图像及四种精确的计算机视觉标注:二值前景分割掩码采用PNG格式存储;深度信息以EXR格式保存厘米级绝对Z深度;表面法线以三维向量形式记录;相机内参矩阵则提供标准化文本格式。数据分布均衡,面部、全身和上半身样本数量严格匹配,所有标注均通过程序化渲染实现零误差,为模型训练提供理想基准。特别值得注意的是,深度与法线信息采用工业级EXR格式存储,保留了高动态范围数据的完整精度。
使用方法
数据集以60个分卷压缩包形式发布,总容量约330GB,用户可通过Python脚本选择性下载完整数据集或单个测试样本。配套提供的可视化工具脚本演示了EXR深度图、法线图等专业数据的正确加载方式,支持用户快速验证数据完整性。为便于模型开发,官方同步发布基于ViT架构的预训练模型,涵盖前景分割、深度估计和表面法线预测三大任务,支持以ONNX格式直接部署。研究人员可通过修改demo.py脚本参数,灵活调用多任务联合模型或独立任务模型进行推理验证。
背景与挑战
背景概述
SynthHuman数据集由微软研究团队于2025年推出,作为计算机视觉领域的重要资源,旨在通过合成数据提升模型训练的效率和精度。该数据集包含约30万张合成人类图像,涵盖面部、上半身和全身三种视角,每张图像均配有精确的前景alpha遮罩、绝对深度、表面法线和相机内参等标注信息。其核心技术依托于微软开发的图形渲染管线,该技术已成功应用于Face Synthetics、SimpleEgo等多个知名数据集。SynthHuman的推出为人体姿态估计、三维重建等任务提供了高质量的基准数据,显著缓解了真实数据标注成本高昂的行业痛点。
当前挑战
在解决领域问题方面,SynthHuman需应对合成数据与真实场景间的域适应挑战,包括光照条件、材质纹理等细节的逼真度差异。构建过程中面临多重技术难点:大规模合成数据的生成需要平衡计算资源与渲染质量;多模态标注的精确对齐对图形引擎提出极高要求;300GB数据量的分布式存储与高效加载方案设计亦属关键挑战。此外,如何确保合成数据的多样性以覆盖复杂现实场景,仍是持续优化的方向。
常用场景
经典使用场景
在计算机视觉领域,SynthHuman数据集因其高质量的合成人类图像和精确的标注信息,成为训练和验证视觉模型的理想选择。该数据集广泛应用于人体姿态估计、深度感知和表面法线预测等任务,特别是在需要大量标注数据的场景下,其合成数据的优势尤为突出。通过提供多样化的视角和光照条件,SynthHuman为模型训练提供了丰富的视觉上下文,显著提升了模型的泛化能力。
衍生相关工作
SynthHuman数据集衍生了一系列经典工作,包括微软的Face Synthetics、SimpleEgo和SynthMoCap等项目。这些工作进一步扩展了合成数据的应用范围,推动了计算机视觉领域的技术创新。例如,Face Synthetics专注于面部图像的生成与标注,而SimpleEgo则致力于解决第一人称视角下的视觉任务。
数据集最近研究
最新研究方向
在计算机视觉领域,SynthHuman数据集以其大规模合成人类图像和精准标注成为研究热点。该数据集包含30万张涵盖面部、上半身及全身的合成图像,每张图像均附带前景alpha蒙版、绝对深度、表面法线和相机内参等高质量标注。前沿研究主要聚焦于如何利用此类合成数据提升视觉模型的泛化能力,特别是在数据稀缺场景下的表现。近期工作表明,基于SynthHuman训练的模型在软前景分割、深度估计和表面法线预测等任务中展现出接近真实数据的性能,这为克服真实数据采集成本高、标注困难等挑战提供了新思路。随着多任务学习框架的兴起,该数据集正被用于探索跨任务知识共享机制,推动轻量化视觉模型的发展。
以上内容由遇见数据集搜集并总结生成



