Waymo Open Dataset
收藏github2022-10-07 更新2024-05-31 收录
下载链接:
https://github.com/kittyschulz/EDA-Waymo-Open-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含Waymo自动驾驶汽车收集的激光雷达和相机数据,所有片段均预先标记了所有3D注释,其中100个片段还具有额外的2D注释。数据集用于进行高级探索性分析,以更好地理解Waymo自动驾驶汽车收集的数据,并通过分析3D标签来测试关于对象分布的三个简单假设。
This dataset comprises LiDAR and camera data collected by Waymo's autonomous vehicles. All segments are pre-labeled with comprehensive 3D annotations, and an additional 100 segments also include 2D annotations. The dataset is intended for advanced exploratory analysis to gain a deeper understanding of the data collected by Waymo's autonomous vehicles and to test three simple hypotheses regarding object distribution through the analysis of 3D labels.
创建时间:
2019-09-10
原始信息汇总
数据集概述
数据集名称
Waymo Open Dataset
数据集内容
- 包含来自Waymo自动驾驶汽车的lidar和相机数据。
- 所有片段均预先标记有3D注释,其中100个片段还包含额外的2D注释。
数据集结构
- 数据被打包成40个
.tar文件,分为训练集(32个文件)和验证集(8个文件)。 - 每个片段存储为TensorFlow Record格式,包含用于序列化数据的protocol buffers。
数据集大小
- 压缩文件总大小约为1TB。
数据集分析
- 分析基于1,000帧开始,后扩展到8,000帧的代表性样本,包含约500,000个对象实例。
- 数据被分为两个Pandas DataFrames:一个包含场景属性(如天气、位置、时间、对象计数),另一个包含对象实例数据(如类别、尺寸、位置、方向)。
数据集应用
- 用于进行高层次的探索性分析,以更好地理解Waymo自动驾驶汽车收集的数据。
- 测试关于对象分布的三个简单假设,包括对象尺寸、方向和位置的比较。
数据集样本
场景属性DataFrame样本
| cyclist_count | location | pedestrian_count | sign_count | time_of_day | vehicle_count | weather | all_object_count | |
|---|---|---|---|---|---|---|---|---|
| 718 | 5 | location_sf | 74 | 28 | Day | 32 | sunny | 111 |
| 5665 | 0 | location_sf | 0 | 14 | Day | 25 | sunny | 25 |
| 302 | 0 | location_sf | 13 | 19 | Day | 87 | sunny | 100 |
| 759 | 0 | location_sf | 1 | 12 | Day | 30 | sunny | 31 |
| 881 | 0 | location_sf | 0 | 33 | Night | 33 | sunny | 33 |
对象实例DataFrame样本
| category | dimension_height | dimension_length | dimension_width | heading | location_x | location_y | location_z | distance | |
|---|---|---|---|---|---|---|---|---|---|
| 242552 | vehicle | 1.99 | 4.51771 | 1.91201 | 88.7551 | 30.7989 | -16.1863 | 1.15742 | 34.7932 |
| 321844 | pedestrian | 1.89 | 1.39697 | 1.0365 | 173.218 | -9.0511 | 8.4543 | 1.30128 | 12.3854 |
| 348903 | vehicle | 1.76 | 4.66344 | 2.01356 | 0.676945 | -0.608897 | -6.17788 | 0.709428 | 6.20781 |
| 462878 | cyclist | 1.43 | 1.43591 | 0.777628 | 175.428 | -2.84022 | -4.73699 | 0.812319 | 5.52322 |
| 311470 | sign | 0.61 | 0.0736391 | 0.485803 | -2.6006 | 0.63274 | 30.1758 | 2.67239 | 30.1824 |
数据集假设测试
- 假设1:车辆类对象比行人类对象更宽更长。
- 假设2:车辆类对象的方向更可能与Waymo Car平行或垂直。
- 假设3:车辆类对象比行人类对象更宽更长。
数据集可视化
- 使用散点图和直方图来展示对象实例的位置、方向和类别分布。
- 场景属性的分布,如天气、位置和时间,也被可视化以帮助理解数据集的特征。
搜集汇总
数据集介绍

构建方式
Waymo Open Dataset的构建依托于Waymo自动驾驶汽车在真实道路环境中收集的激光雷达和摄像头数据。数据集通过TensorFlow Record格式存储,每个片段包含序列化的协议缓冲区数据,确保了数据的高效存储与读取。数据被分为训练集和验证集,分别包含32个和8个压缩文件,总大小约为1TB。数据采集过程中,通过构建可扩展的管道,将压缩文件下载至虚拟机并解压,随后提取每帧数据并存储为Python字典,最终整合为Pandas DataFrame以便于分析与可视化。
特点
Waymo Open Dataset的特点在于其丰富的多模态数据,涵盖了激光雷达和摄像头采集的3D标注信息,其中100个片段还包含额外的2D标注。数据集不仅提供了场景属性(如天气、地点、时间)和对象实例(如类别、尺寸、位置、朝向)的详细信息,还通过协议缓冲区实现了数据的语言无关性。此外,数据集中对象实例的分布与场景属性密切相关,例如车辆类对象通常比行人类对象更宽更长,且其朝向更可能与Waymo汽车平行或正交。
使用方法
使用Waymo Open Dataset时,首先需通过Google Cloud存储桶申请访问权限。数据以TensorFlow Record格式存储,用户可通过Python脚本读取协议缓冲区数据并提取为Pandas DataFrame,便于进一步分析与可视化。数据集提供了详细的教程和Colab示例,帮助用户快速上手。分析过程中,用户可重点关注场景属性与对象实例的分布关系,例如通过散点图可视化对象实例在Waymo汽车周围的位置分布,或通过直方图分析场景属性的统计特征。此外,用户还可基于数据集提供的3D标注信息,验证与自动驾驶相关的假设。
背景与挑战
背景概述
Waymo Open Dataset是由Waymo公司于2019年发布的一个开放数据集,旨在推动自动驾驶技术的研究与发展。该数据集包含了来自Waymo自动驾驶汽车收集的激光雷达和摄像头数据,所有数据片段均预先标注了3D注释,其中100个片段还额外提供了2D注释。数据集的核心研究问题在于如何通过高精度的传感器数据和多维标注,提升自动驾驶系统在复杂环境中的感知与决策能力。Waymo Open Dataset的发布不仅为学术界和工业界提供了宝贵的研究资源,还推动了自动驾驶领域在3D目标检测、场景理解等方向的技术进步。
当前挑战
Waymo Open Dataset在解决自动驾驶领域的感知问题时,面临诸多挑战。首先,自动驾驶系统需要在复杂的城市环境中准确识别和定位各类动态与静态物体,如车辆、行人和自行车等,这对数据集的标注精度和多样性提出了极高要求。其次,数据集的构建过程中,如何高效处理海量的传感器数据并确保标注的一致性与准确性,是一个技术难点。此外,数据集中的场景多样性(如不同天气、光照条件和地理位置)也对模型的泛化能力提出了挑战。最后,数据集的规模庞大(约1TB),如何在有限的计算资源下进行高效的数据处理与分析,也是研究人员需要克服的难题。
常用场景
经典使用场景
Waymo Open Dataset 广泛应用于自动驾驶领域的研究与开发,尤其是在感知系统的训练与验证中。该数据集通过提供丰富的激光雷达和摄像头数据,支持研究人员对车辆、行人、骑行者等目标进行精确的三维标注分析。经典使用场景包括目标检测、语义分割、以及多传感器融合算法的开发与评估。
解决学术问题
Waymo Open Dataset 解决了自动驾驶研究中多个关键问题,如复杂场景下的目标识别与跟踪、多模态数据融合的鲁棒性提升、以及不同环境条件(如天气、光照)对感知系统性能的影响分析。通过提供高质量的三维标注数据,该数据集显著推动了自动驾驶感知算法的精度与泛化能力研究。
衍生相关工作
基于 Waymo Open Dataset,许多经典研究工作得以展开。例如,研究人员开发了基于深度学习的多模态感知模型,利用激光雷达和摄像头数据的互补性提升目标检测精度。此外,该数据集还催生了一系列关于自动驾驶场景理解的研究,如动态目标轨迹预测、环境语义分割等,为自动驾驶技术的进一步发展奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



