Waymo Open Dataset

github2024-04-13 更新2024-05-31 收录

下载链接：

https://github.com/Jossome/Waymo-open-dataset-document

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个补充文档，用于说明如何访问数据集的不同特性。数据集存储在`.tfrecord`文件中，通过创建`TFRecordDataset`来加载数据。每个样本是一个包含各种信息的帧。数据集的结构包括激光和相机数据，以及各种校准和统计信息。

This is a supplementary document that explains how to access different features of the dataset. The dataset is stored in `.tfrecord` files and can be loaded by creating a `TFRecordDataset`. Each sample is a frame containing various pieces of information. The structure of the dataset includes lidar and camera data, as well as various calibration and statistical information.

创建时间：

2019-10-03

原始信息汇总

Waymo Open Dataset 概述

数据集存储格式

数据集以 .tfrecord 文件格式存储。
使用 TFRecordDataset 加载数据集，需提供 .tfrecord 文件路径列表。

数据集加载方法

创建 TFRecordDataset 对象后，可通过迭代访问每个样本。
每个样本包含一个 Frame 对象，该对象通过 ParseFromString 方法解析数据。

数据集结构

数据集结构以树状展示，主要包含 Frame 对象及其子节点。
Frame 对象包含多个属性，如 images, lasers, camera_labels 等。

数据集内容

LiDAR 数据

LiDAR 数据通过 frame.lasers 访问，包含不同位置的激光数据。
使用 parse_range_image_and_camera_projection 函数处理 LiDAR 数据，转换为点云数据。

相机图像

相机图像通过 frame.images 访问，包含不同位置的图像数据。
图像数据为 JPEG 格式，可通过 PIL 库保存到本地。

边界框标签

2D 标签存储在 frame.camera_labels 中，每个标签对应一个相机视角。
3D 标签存储在 frame.laser_labels 中，不区分激光雷达位置。

其他功能

标签对象包含速度和加速度的元数据，但仅3D标签包含此类信息。

数据集访问代码示例

提供如何访问和处理数据集中的 LiDAR 数据和相机图像的代码示例。

故障排除

提供针对数据集加载和处理过程中可能遇到的问题的解决方案。

第三方工具和资源

提供用于数据集转换和可视化的第三方工具和资源链接。

搜集汇总

数据集介绍

构建方式

Waymo Open Dataset的构建方式主要基于Waymo自动驾驶车辆在实际道路环境中采集的多模态数据。该数据集以`.tfrecord`文件格式存储，包含激光雷达（LiDAR）、摄像头（Camera）等多种传感器的数据。每个`.tfrecord`文件包含多个帧（Frame），每帧数据涵盖了车辆在某一时刻的多维度信息，包括点云数据、图像数据、传感器校准信息、物体标签等。通过预定义的`TFRecordDataset`类，用户可以轻松加载和解析这些数据，从而实现对自动驾驶场景的深度分析。

特点

Waymo Open Dataset的显著特点在于其多模态数据的丰富性和高精度。数据集不仅包含了多个激光雷达和摄像头的原始数据，还提供了详细的物体标签信息，包括2D和3D的边界框标注，以及物体的速度和加速度等元数据。此外，数据集还提供了传感器校准信息和点云与图像的投影关系，使得研究人员能够进行多传感器融合的研究。这些特点使得该数据集成为自动驾驶领域研究的重要资源。

使用方法

使用Waymo Open Dataset时，首先需要安装相应的工具包，并通过`TFRecordDataset`类加载数据。每帧数据可以通过迭代的方式进行解析，获取包括激光雷达点云、摄像头图像、物体标签等信息。具体操作中，用户可以通过`parse_range_image_and_camera_projection`函数将激光雷达数据转换为点云，并通过`convert_range_image_to_point_cloud`函数进一步处理。对于摄像头图像，可以直接使用`PIL`库进行读取和保存。此外，数据集还提供了详细的代码示例和教程，帮助用户快速上手并进行深度学习模型的训练与评估。

背景与挑战

背景概述

Waymo Open Dataset是由Waymo公司于2019年发布的一个自动驾驶领域的开源数据集。该数据集由Waymo的研究团队精心构建，旨在为自动驾驶技术的研究提供高质量的多模态数据支持。Waymo Open Dataset包含了丰富的传感器数据，包括激光雷达（LiDAR）、摄像头图像以及相应的标注信息，涵盖了车辆、行人等多种目标的3D和2D边界框标注。该数据集的发布极大地推动了自动驾驶领域的研究进展，为研究人员提供了真实世界中的复杂场景数据，助力于自动驾驶感知、定位与决策等核心问题的研究。

当前挑战

Waymo Open Dataset在构建过程中面临了多重挑战。首先，数据集的规模庞大，包含了数百万帧的多模态数据，如何高效地存储、处理和访问这些数据是一个技术难题。其次，数据集的标注工作复杂，尤其是3D边界框的标注，需要精确地捕捉目标在三维空间中的位置和姿态，这对标注工具和算法提出了高要求。此外，数据集的多模态特性要求研究人员在处理不同传感器数据时进行有效的融合，以实现更准确的感知和理解。最后，数据集的访问和使用也存在一定的技术门槛，尤其是对于初学者，如何正确加载和解析数据集中的复杂数据结构是一个挑战。

常用场景

经典使用场景

Waymo Open Dataset 的经典使用场景主要集中在自动驾驶领域的感知与决策任务中。该数据集提供了丰富的多模态数据，包括高分辨率摄像头图像、激光雷达点云以及精确的3D和2D目标标注。研究者可以利用这些数据进行目标检测、语义分割、轨迹预测等任务的模型训练与验证。例如，通过结合摄像头图像与激光雷达点云，可以实现对道路环境中车辆、行人等目标的精确识别与定位，从而为自动驾驶系统提供可靠的环境感知能力。

衍生相关工作

Waymo Open Dataset 的发布催生了一系列相关的经典工作，尤其是在多传感器融合与自动驾驶感知领域。例如，研究者基于该数据集开发了多种多模态融合算法，用于提升目标检测与语义分割的精度。此外，该数据集还推动了自动驾驶系统中轨迹预测与行为理解的研究，通过分析数据集中的车辆与行人行为，研究者提出了多种预测模型。同时，该数据集的开放也促进了与其他自动驾驶数据集（如KITTI）的对比研究，推动了数据集标准化与算法迁移的研究工作。

数据集最近研究