DTO-Humans

github2025-11-20 更新2025-11-21 收录

下载链接：

https://github.com/gouba2333/DTO-Humans

下载链接

链接失效反馈

官方服务：

资源简介：

DTO-Humans是一个新的大规模伪真实标注数据集，包含56万张高质量、场景一致的多人物图像，具有密集人群特征，平均每张图像包含4.8个人。该数据集通过将深度条件平移优化（DTO）框架应用于4D-Humans数据集构建而成，利用人体高度先验和单目深度估计器的深度线索，在最大后验概率框架下求解所有受试者的场景一致放置。

DTO-Humans is a novel large-scale pseudo-ground-truth annotated dataset, which consists of 560,000 high-quality, scene-consistent multi-person images featuring dense crowd configurations, with an average of 4.8 individuals per image. This dataset is constructed by applying the Deep Conditional Transformation Optimization (DTO) framework to the 4D-Humans dataset. Leveraging human height priors and depth cues from monocular depth estimators, it solves the scene-consistent placement of all subjects within the maximum a posteriori (MAP) framework.

创建时间：

2025-11-19

原始信息汇总

DTO-Humans 数据集概述

数据集基本信息

数据集名称：DTO-Humans
论文标题：Towards Metric-Aware Multi-Person Mesh Recovery by Jointly Optimizing Human Crowd in Camera Space
论文链接：http://arxiv.org/abs/2511.13282
数据集规模：56万张高质量、场景一致的多人物图像
平均人物密度：每张图像平均4.8人

数据集特点

基于4D-Humans数据集构建
采用深度条件平移优化（DTO）方法
在相机空间中联合优化人群的平移
利用人体高度先验和单目深度估计器的深度线索
在原则性最大后验（MAP）框架内求解所有主体的场景一致放置

下载地址

Google Drive：https://drive.google.com/drive/folders/1ddc43P6iYIctAvmuravIxbxZm3F2uB41?usp=drive_link
Tsinghua Cloud：https://cloud.tsinghua.edu.cn/d/539173c2952b40f5a422/

数据组织结构

data/ ├── aic/ │ ├── images/ │ ├── aic-release.npz │ └── AIC_CHMR_SMPL_OPT.npz ├── coco2014/ │ ├── images/ │ │ └── train2014/ │ ├── coco-release.npz │ └── COCO_CHMR_SMPL_OPT.npz ├── insta/ │ ├── images/ │ │ └── insta-train/ │ ├── insta1-release.npz │ ├── insta2-release.npz │ └── INSTA_CHMR_SMPL_OPT.npz └── mpii/ ├── images/ ├── mpii-release.npz └── MPII_CHMR_SMPL_OPT.npz

许可证信息

许可证类型：Creative Commons Attribution-NonCommercial 4.0 International License
使用限制：仅限非商业学术研究用途

引用格式

bibtex @article{wang2025dtohumans, title={Towards Metric-Aware Multi-Person Mesh Recovery by Jointly Optimizing Human Crowd in Camera Space}, author={Kaiwen Wang, Kaili Zheng, Yiming Shi, Chenyi Guo, Ji Wu}, journal={arXiv preprint arXiv:2511.13282}, year={2025} }

搜集汇总

数据集介绍

构建方式

在三维人体姿态估计领域，大规模场景一致数据集的构建始终是推动算法发展的关键。DTO-Humans通过深度条件平移优化框架，对4D-Humans数据集进行系统性重构，利用单目深度估计器获取场景深度信息，结合人体测量学先验知识，在最大后验概率框架下联合优化人群在相机空间中的三维位置分布，最终形成包含56万张高质量图像的大规模伪真值数据集。

特点

该数据集在密集人群三维重建领域展现出显著优势，平均每张图像包含4.8个标注完整的人体实例，其标注质量在场景一致性方面达到新的高度。通过多源数据融合技术，数据集整合了AIC、COCO、MPII等多个权威数据源的图像素材，并采用标准化SMPL参数化模型统一表示人体网格，为多视角三维重建研究提供了前所未有的数据支撑。

使用方法

研究者可通过官方提供的可视化工具直接观察数据分布特征，利用预训练模型快速开展迁移学习实验。数据集采用分层目录结构组织，配合专用预处理脚本可实现自动化数据加载。针对不同应用场景，用户可分别调用初始推理和优化推理两个独立模块，通过调整可视化步长等参数实现不同程度的精度控制，为三维人体姿态估计算法的验证与比较提供了完整的技术路径。

背景与挑战

背景概述

在计算机视觉与三维人体重建领域，密集场景下的多人姿态估计一直是研究热点。DTO-Humans数据集于2025年由Kaiwen Wang等学者提出，基于4D-Humans数据集构建，通过深度条件平移优化框架实现了相机空间内多人网格的联合优化。该数据集包含56万张高质量图像，平均每幅图像涵盖4.8个人体实例，其创新性在于将人体高度先验知识与单目深度估计相结合，通过最大后验概率框架实现场景一致性建模，为三维人体重建与空间关系理解提供了重要基准。

当前挑战

该数据集致力于解决密集场景下多人三维网格恢复的尺度一致性与空间布局优化难题。核心挑战在于如何通过单目视觉信息准确估计相机空间中多人的绝对尺度，以及如何在缺乏深度真值的情况下保持人体间的相对空间关系。构建过程中面临标注一致性维护的挑战，需协调来自AIC、COCO等多源异构数据集的标注差异，同时需克服单目深度估计误差对优化过程的干扰，并通过最大后验概率框架平衡人体先验与观测数据间的约束关系。

常用场景

经典使用场景

在三维人体姿态估计领域，DTO-Humans数据集通过深度条件平移优化框架，为密集人群场景下的三维网格恢复提供了基准测试平台。其包含的56万张高质量图像平均每帧包含4.8个人体实例，特别适用于评估多人物在相机空间中的相对位置关系与尺度一致性，成为衡量算法在复杂场景下空间布局能力的重要试金石。

解决学术问题

该数据集有效解决了单目三维人体重建中尺度模糊与空间不一致的经典难题。通过融合人体测量学先验与单目深度估计线索，在最大后验概率框架下联合优化群体空间位置，显著提升了三维网格在真实场景中的度量准确性。这种基于物理约束的优化方法为计算机视觉领域提供了可量化的场景一致性评估标准。

衍生相关工作

该数据集催生了多项基于度量感知的多人物网格恢复研究，其中MA-HMR框架通过联合优化相机空间群体布局，推动了三维人体重建向场景一致性方向发展。相关方法在RelativeHuman等基准测试中展现出优越性能，启发了后续研究将人体形态先验与深度线索相结合的新范式，为群体行为分析开辟了新的技术路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集