Waymo-3DSkelMo

Name: Waymo-3DSkelMo
Creator: 格拉斯哥大学
Published: 2025-08-13 08:39:56
License: 暂无描述

arXiv2025-08-13 更新2025-08-15 收录

下载链接：

https://doi.org/10.1145/3746027.3758273

下载链接

链接失效反馈

官方服务：

资源简介：

Waymo-3DSkelMo 是一个大规模、高质量的 3D 骨骼运动数据集，用于自动驾驶中的行人交互建模。该数据集从 Waymo 感知数据集中提取，包含超过 14,000 秒的 3D 骨骼运动序列，涵盖超过 800 个真实驾驶场景，每个场景平均有 27 个智能体进行交互。数据集采用 LiDAR 和运动先验技术，克服了现有数据集的遮挡和时间连续性问题，提供了丰富多样的多智能体交互模式。

Waymo-3DSkelMo is a large-scale, high-quality 3D skeletal motion dataset designed for pedestrian interaction modeling in autonomous driving. Extracted from the Waymo Perception Dataset, it contains over 14,000 seconds of 3D skeletal motion sequences across more than 800 real-world driving scenarios, with an average of 27 interacting agents per scenario. The dataset utilizes LiDAR and motion prior technologies to address the occlusion and temporal continuity limitations of existing datasets, and provides a rich spectrum of multi-agent interaction patterns.

提供机构：

格拉斯哥大学

创建时间：

2025-08-13

搜集汇总

数据集介绍

构建方式

Waymo-3DSkelMo数据集的构建采用了创新的多模态融合方法，基于Waymo感知数据集中的LiDAR点云数据，结合3D人体形状先验（SMPL模型）和运动先验（Neural Motion Field）进行优化。首先从五台LiDAR传感器获取的原始点云经过坐标统一和融合，随后通过LiDAR-HMR算法从稀疏点云中恢复3D人体网格，并利用时空对齐技术解决姿态不连贯问题。最终通过预训练的神经运动场增强运动序列的自然性和时间连续性，生成高精度、时序一致的3D骨骼运动数据。该流程有效克服了传统RGB单目估计中的遮挡和时序断裂问题。

特点

作为首个面向自动驾驶场景的大规模多智能体3D骨骼运动数据集，Waymo-3DSkelMo包含837个真实驾驶场景中超过14,000秒的运动序列，平均每场景27个行人交互实例（最多达250人）。其核心优势在于：1) 提供两种数据格式（关键点坐标与SMPL参数化网格）及双帧率版本（10fps/30fps），保持与原始Waymo数据的时空同步；2) 通过运动先验增强的243万帧密集标注，相较原始数据集稀疏标注提升240倍；3) 行人平均位移达10.41米，包含长时程复杂交互模式。定量评估显示其FID分数（10.45）和足部滑动比率（0.035）显著优于基线方法。

使用方法

该数据集支持多模态研究与应用：1) 基准测试方面，提供标准化的3D姿态预测评估协议，支持1秒短时预测任务，并包含不同行人密度场景的分组验证；2) 数据集成上，可直接对接原始Waymo的LiDAR/相机数据，通过时间戳对齐实现跨模态分析；3) 使用建议包括：采用滑动窗口（3秒时长，50帧步长）提取运动片段，推荐全局旋转（10°步进）、高斯噪声（σ=0.01m）等增强策略提升模型鲁棒性。配套开源代码提供从原始点云到增强运动的完整处理流程，遵循CC BY-NC-SA 4.0许可。

背景与挑战

背景概述

Waymo-3DSkelMo数据集由格拉斯哥大学和武汉大学的研究团队于2025年提出，旨在解决自动驾驶领域中多行人交互建模的核心问题。该数据集基于Waymo感知数据集中的LiDAR点云数据，通过融合人体形状先验（SMPL模型）和运动先验（神经运动场），首次实现了大规模、高质量的三维骨骼运动序列标注。其覆盖800余个真实驾驶场景，包含超过14,000秒的运动数据，单场景最高支持250个行人交互建模，为复杂城市环境下的细粒度行为理解提供了关键数据支撑。该工作发表于多媒体领域顶会ACM MM，填补了现有数据集在时空连续性与交互语义标注方面的空白。

当前挑战

该数据集主要应对两大挑战：在领域问题层面，传统基于单目RGB视频的3D姿态估计存在遮挡敏感、时序断裂等问题，导致运动质量低下；而激光雷达点云虽能提供深度信息，但原始数据稀疏且噪声显著，难以直接提取连贯动作。在构建过程中，研究团队需攻克点云缺失帧的时空对齐、基于非完整观测的人体网格恢复，以及运动自然性增强等关键技术难题。通过引入Frenet坐标系优化全局朝向、利用AMASS预训练的运动先验模型，最终实现了毫米级精度的关节位移误差（MPJPE 0.17m）和低于3.5%的足部滑动比例，显著提升了复杂交互场景下的运动建模可靠性。

常用场景

经典使用场景

Waymo-3DSkelMo数据集在自动驾驶领域中被广泛应用于多行人交互建模。通过提供高质量、时间连贯的3D骨骼运动数据，该数据集为研究者在复杂城市环境中理解和预测行人行为提供了重要支持。其经典使用场景包括行人轨迹预测、3D姿态预测以及多智能体交互分析，特别是在高密度行人场景下的动态行为建模。

实际应用

在实际应用中，Waymo-3DSkelMo数据集为自动驾驶系统的感知和规划模块提供了重要支持。基于该数据集训练的模型能够更准确地预测行人未来姿态和轨迹，从而帮助自动驾驶车辆在复杂城市环境中做出更安全的决策。此外，该数据集还可用于虚拟测试场景的构建，加速自动驾驶算法的验证和优化。

衍生相关工作

Waymo-3DSkelMo数据集已经衍生出多项经典研究工作，特别是在3D姿态预测和多智能体交互建模领域。基于该数据集，研究者提出了多种创新方法，如TBIFormer等交互感知的3D姿态预测模型。这些工作不仅验证了数据集的价值，还推动了自动驾驶领域对行人行为理解的深入研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集