PedX

Name: PedX
Creator: 密歇根大学
Published: 2018-09-11 05:31:42
License: 暂无描述

arXiv2018-09-11 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/1809.03605v1

下载链接

链接失效反馈

官方服务：

资源简介：

PedX数据集是由密歇根大学开发的一个大规模多模态行人数据集，专注于复杂城市交叉口的行人三维姿态估计。该数据集包含超过5000对高分辨率立体图像和LiDAR数据，以及2D和3D行人标签。数据集的创建过程涉及自动3D标签算法，该算法利用多模态数据和形状及时间先验进行3D标注。PedX数据集的应用领域主要集中在自动驾驶车辆在复杂城市环境中对行人姿态、运动、行为和意图的理解，旨在提高自动驾驶车辆的安全性和效率。

The PedX dataset is a large-scale multimodal pedestrian dataset developed by the University of Michigan, focusing on 3D human pose estimation at complex urban intersections. It contains over 5000 pairs of high-resolution stereo images and LiDAR data, as well as 2D and 3D pedestrian annotations. The development of this dataset involves automated 3D annotation algorithms, which leverage multimodal data, shape priors and temporal priors to perform 3D labeling. The primary application scenarios of the PedX dataset focus on autonomous vehicles' understanding of pedestrian poses, motions, behaviors and intentions in complex urban environments, aiming to improve the safety and efficiency of autonomous driving systems.

提供机构：

密歇根大学

创建时间：

2018-09-11

搜集汇总

数据集介绍

构建方式

在自动驾驶领域，精准感知行人姿态对提升系统安全性至关重要。PedX数据集的构建依托于多模态传感器融合技术，通过部署于车辆顶部的两对高分辨率立体相机与激光雷达同步采集城市交叉路口场景。数据采集覆盖三个交通繁忙的四向停车路口，捕捉距离相机5至45米范围内的行人动态。标注流程首先由人工标注者完成实例级二维分割与18个身体关节点标注，并分配跨帧追踪ID；随后利用立体图像对与激光雷达点云，通过新颖的多模态三维模型拟合算法自动生成三维标注。该算法整合立体重投影误差、激光雷达三维距离约束以及时序先验，基于SMPL参数化模型优化姿态、形状与全局位置参数，确保三维模型定位于真实世界度量空间。

特点

PedX数据集在行人三维姿态估计领域展现出独特优势。其数据源于真实复杂的城市交叉口环境，涵盖多变光照、天气条件及严重遮挡等挑战，行人行为自然多样，包含行走、奔跑、使用手机等多种动作。数据集规模宏大，提供超过5000对高分辨率立体图像与激光雷达点云，包含14000余个三维行人模型，且支持多行人场景（单帧最多达15人）。标注体系尤为突出，所有三维模型均置于全局度量坐标系中，而非相对关节或相机坐标系，并附有时序追踪ID，支持时空推理。此外，数据集验证了利用先进二维自动标注技术替代人工标注的可行性，为大规模数据生成提供了路径。

使用方法

PedX数据集为三维行人姿态估计、检测与追踪研究提供了基准平台。研究者可利用其多模态数据开发与评估算法，例如通过立体图像与激光雷达点云融合提升姿态估计的度量精度。数据集中的全局坐标标注支持机器人导航中的实时定位与避障研究，而时序ID与长序列数据则适用于行人行为预测与轨迹分析模型训练。使用时可基于提供的二维分割、关节点、三维SMPL参数及激光雷达点云，结合立体几何约束与时序一致性先验，设计端到端深度学习模型或优化方法。数据集的自动标注流程也允许集成现有二维检测网络（如Mask R-CNN与OpenPose）以扩展标注规模，推动野外场景下的三维感知技术发展。

背景与挑战

背景概述

随着自动驾驶技术在复杂城市环境中的广泛应用，准确感知行人姿态与行为成为保障安全的关键挑战。2018年，由密歇根大学与福特汽车公司联合研究团队发布的PedX数据集，旨在为三维行人姿态估计提供大规模多模态基准数据。该数据集采集于真实城市交叉路口，包含超过5000对高分辨率立体图像与激光雷达点云，并辅以二维与三维标注信息。其核心研究问题聚焦于在真实度量空间中实现行人的三维姿态定位，突破了传统动作捕捉系统在户外复杂场景中的局限，为自动驾驶系统理解行人意图与运动模式提供了重要数据支撑。

当前挑战

PedX数据集致力于解决复杂城市交叉路口行人的三维姿态估计问题，其挑战主要体现在两个方面。在领域问题层面，由于行人姿态的多样性与场景的复杂性，如遮挡、光照变化及远距离观测，准确恢复度量空间中的三维人体模型存在深度模糊性与尺度不确定性。构建过程中的挑战则涉及多模态数据融合与标注生成：如何将立体视觉、激光雷达点云与时间序列信息有效结合，以自动化方式生成精确的三维标注，同时克服户外环境下的传感器标定误差与标注噪声，是该数据集构建的核心难点。

常用场景

经典使用场景

在自动驾驶与计算机视觉领域，复杂城市交叉口场景下的行人三维姿态估计一直是研究难点。PedX数据集通过提供大规模、多模态的真实世界行人数据，成为该领域基准测试的核心资源。其经典使用场景集中于开发与评估能够在真实城市环境中，对远距离、多目标、严重遮挡的行人进行精确三维姿态重建的算法。研究者利用其同步采集的高分辨率立体图像与激光雷达点云，结合精确的二维与三维标注，训练深度神经网络模型，以解决从二维图像到三维度量空间姿态映射的固有歧义性问题。

衍生相关工作

PedX数据集的发布催生了一系列围绕户外、度量空间、多行人三维姿态估计的经典研究工作。其提供的多模态真值数据成为了评估新算法性能的黄金标准，许多后续研究以其为基准，比较不同模型在全局坐标系下的误差。数据集构建中提出的基于立体视觉、激光雷达点云及时序先验的三维模型自动拟合算法，本身即是一项重要的衍生工作，为从二维标注生成大规模三维真值数据提供了可行方案。此外，该数据集也启发了对多传感器融合、时序模型、以及针对严重遮挡情况的鲁棒性姿态估计方法的深入研究，推动了整个领域向更实用、更安全的实际部署迈进。

数据集最近研究