Dense 2D-3D Paired Data

github2026-04-01 更新2026-04-02 收录

下载链接：

https://github.com/YubinWang2021/Dense-Paired-Data-Generation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含密集的2D-3D配对数据，通过FrankMocap工具从视频帧中提取生成。数据以.pkl文件格式存储，包括可见顶点数据和可见面采样数据，详细描述了顶点在图像坐标系中的位置及其在SMPL模型中的原始索引。

This dataset contains dense 2D-3D paired data, which is extracted and generated from video frames using the FrankMocap tool. The data is stored in .pkl file format, including visible vertex data and visible face sampling data, and details the positions of the vertices in the image coordinate system as well as their original indices in the SMPL model.

创建时间：

2026-03-28

原始信息汇总

Dense 2D-3D Data Generation Pipeline 数据集概述

数据集基本信息

数据集名称：Dense 2D-3D Data Generation Pipeline
核心功能：基于FrankMocap，从视频帧图像生成密集的2D-3D配对数据。
支持系统：Linux, Windows
编程语言：Python 3.10
许可证：CC-BY-NC 4.0 (https://creativecommons.org/licenses/by-nc/4.0/legalcode)

数据生成流程

输入：视频帧图像文件夹。
处理命令：
- 有显示器环境：python -m demo.demo_bodymocap --input_path ./your_extracted_video_frames --out_dir ./mocap_output
- 无显示器环境（推荐）：xvfb-run -a python -m demo.demo_bodymocap --input_path ./your_list_of_extracted_video_frames --out_dir ./mocap_output
输出位置：
- 密集2D-3D配对数据：生成在输入路径（原始图像列表）中。
- 渲染图像：保存在输出目录中。

生成数据格式规范

生成的数据为两个与输入图像对应的.pkl文件，共享相同的基础文件名。

(1) 可见顶点数据文件 (`*.pkl`)

文件命名示例：输入图像CCVID/session1/003_04/00001.jpg对应文件为CCVID_session1_003_04_00001.pkl。
数据结构：Pickle序列化的NumPy数组。
形状：(N, 3)，其中N为有效可见顶点数量。
数据类型：float32。

字段描述：

列索引	字段名	描述
0	x	顶点在图像坐标系中的x坐标（原点在左上角）
1	y	顶点在图像坐标系中的y坐标（原点在左上角）
2	vertex_index	顶点在SMPL模型中的原始索引

(2) 可见面采样数据文件 (`*_samples.pkl`)

文件命名示例：输入图像CCVID/session1/003_04/00001.jpg对应文件为CCVID_session1_003_04_00001_samples.pkl。
数据结构：Pickle序列化的NumPy数组。
形状：(M, 8)，其中M为采样点总数（默认每个可见面2个点）。
数据类型：float32。

字段描述：

列索引	字段名	描述
0	sample_x	采样点的x坐标（图像坐标系，原点在左上角），存储为float32
1	sample_y	采样点的y坐标（图像坐标系，原点在左上角），存储为float32
2	v0	包含采样点的三角形面中第0个顶点的原始SMPL索引
3	v1	包含采样点的三角形面中第1个顶点的原始SMPL索引
4	v2	包含采样点的三角形面中第2个顶点的原始SMPL索引
5	b0	对应顶点`v0`的重心坐标权重
6	b1	对应顶点`v1`的重心坐标权重
7	b2	对应顶点`v2`的重心坐标权重

注意：重心坐标满足约束条件 b0 + b1 + b2 = 1。

技术依赖与参考文献

基础框架：基于FrankMocap (https://github.com/facebookresearch/frankmocap)。
关键研究文献：
- Rong, Y., Shiratori, T., & Joo, H. (2021). FrankMocap: A Monocular 3D Whole-Body Pose Estimation System via Regression and Integration. IEEE ICCV Workshops.
- Joo, H., Neverova, N., & Vedaldi, A. (2021). Exemplar Fine-Tuning for 3D Human Pose Fitting Towards In-the-Wild 3D Human Pose Estimation. 3DV.
利用的开源项目：SMPL, SMPLX, Detectron2, Pytorch3D, OpenDR, SPIN, 100DOH, lightweight-human-pose-estimation。

搜集汇总

数据集介绍

构建方式

在计算机视觉与人体姿态估计领域，构建高质量的二维-三维配对数据对于推动模型训练与算法验证至关重要。Dense 2D-3D Paired Data的生成依赖于FrankMocap这一先进的单目三维全身姿态估计系统。该流程以提取的视频帧作为输入，通过身体运动捕捉模块，利用SMPL人体模型对每帧图像进行三维重建。系统自动计算可见顶点在图像坐标系中的投影坐标，并生成三角网格面上的采样点及其对应的重心坐标，最终输出为配对的.pkl文件，实现了从原始图像到密集三维标注的无缝转换。

特点

该数据集的核心特征在于其密集且精确的二维-三维对应关系。每个数据样本包含两个关键文件：一个存储了SMPL模型中可见顶点在图像平面上的投影坐标与原始顶点索引，另一个则记录了在可见三角面上生成的采样点坐标及其对应的重心权重。这种结构不仅提供了顶点级的对应，还通过面采样增强了三维几何信息的连续性。数据以高效的NumPy数组序列化存储，确保了处理速度与兼容性，为三维姿态估计、人体重建等任务提供了丰富而可靠的监督信号。

使用方法

使用该数据集时，研究人员需首先配置FrankMocap环境并准备图像序列。通过运行提供的演示脚本，指定输入图像路径与输出目录，即可自动生成配对的.pkl文件。生成的可见顶点数据与面采样数据均与原始图像共享文件名基础，便于对应加载。用户可利用这些数据直接训练或评估三维人体模型，例如通过投影坐标监督网络学习从二维到三维的映射，或利用采样点信息进行更细致的几何推理。数据格式清晰规范，支持灵活集成到各类深度学习框架中。

背景与挑战

背景概述

在计算机视觉与三维人体姿态估计领域，密集二维-三维配对数据对于推动单目三维重建技术至关重要。Dense 2D-3D Paired Data数据集基于Facebook Research团队开发的FrankMocap系统构建，该系统于2021年由Rong等人提出，旨在通过回归与集成方法实现单目三维全身姿态估计。该数据集的核心研究问题聚焦于从二维图像中精确恢复三维人体姿态与形状，通过生成SMPL模型顶点与图像坐标的密集对应关系，为训练与评估深度学习模型提供高质量标注。其影响力不仅体现在提升了三维人体姿态估计的精度与鲁棒性，还为虚拟现实、人机交互等应用奠定了数据基础。

当前挑战

该数据集致力于解决单目三维人体姿态估计中二维与三维空间对应关系建立的挑战，具体包括在复杂背景、遮挡及多样姿态下保持估计的准确性。构建过程中的挑战主要源于技术实现与数据质量保障：首先，依赖FrankMocap管道进行自动化生成时，可能因渲染器兼容性（如OpenGL、PyTorch3D或OpenDR）导致输出不一致；其次，确保SMPL模型顶点投影与图像坐标对齐的精度需克服光照变化、姿态歧义等干扰；此外，大规模数据生成需高效处理计算资源与存储需求，同时维持数据格式（如.pkl文件）的规范性与可复用性。

常用场景

经典使用场景

在计算机视觉与图形学领域，密集2D-3D配对数据为单目人体姿态估计提供了关键支撑。该数据集通过FrankMocap框架从视频帧中提取SMPL模型的顶点与面采样信息，构建了图像像素与三维人体网格之间的精确对应关系。其经典使用场景在于训练和验证基于回归与积分方法的单目三维全身姿态估计算法，使得模型能够从单一二维图像中推理出稠密且连贯的三维人体结构，有效缓解了传统方法中因缺乏密集对应而导致的姿态模糊与失真问题。

解决学术问题

该数据集主要解决了单目三维人体姿态估计中数据稀疏性与对应关系缺失的学术难题。传统方法往往依赖稀疏的关键点或轮廓信息，难以捕捉细腻的人体表面几何与运动细节。通过提供每帧图像中可见顶点与面采样的精确二维投影及三维索引，数据集为算法学习图像到三维空间的密集映射奠定了数据基础，显著提升了姿态估计的准确性与鲁棒性。其意义在于推动了从稀疏感知到稠密重建的研究范式转变，为三维人体理解提供了更丰富的几何约束。

衍生相关工作

基于该数据集的生成框架与思想，学术界衍生出一系列经典研究工作。例如，FrankMocap本身作为开源系统，集成了SPIN、EFT等先进姿态估计算法，促进了单目三维姿态估计技术的标准化与普及。后续研究如基于稠密对应的神经渲染、非刚性表面跟踪等方法，也借鉴了其数据构建理念，进一步拓展了在动态场景重建、数字人驱动等方向的应用。这些工作共同深化了对人体形状与运动的理解，形成了从数据生成到算法创新的良性循环。

以上内容由遇见数据集搜集并总结生成