One Thousand and One Hours: Self-driving Motion Prediction Dataset

Name: One Thousand and One Hours: Self-driving Motion Prediction Dataset
Creator: Lyft Level 5
Published: 2020-11-17 05:16:49
License: 暂无描述

arXiv2020-11-17 更新2024-07-25 收录

下载链接：

https://self-driving.lyft.com/level5

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为‘一千零一小时：自动驾驶运动预测数据集’，由Lyft Level 5团队创建，旨在为自动驾驶车辆的运动预测和规划提供大规模详细数据。数据集包含170,000个场景，每个场景25秒，覆盖20辆自动驾驶车辆在帕洛阿尔托的一段6.8英里路线上的1,000小时记录。数据集不仅包含车辆、行人及自行车等交通参与者的精确位置和运动数据，还包含高清晰度语义地图和航空视图，用于辅助预测。此数据集适用于开发自动驾驶机器学习任务，如运动预测、运动规划和模拟，旨在解决自动驾驶中的关键问题，如提高预测准确性和规划效率。

This dataset is named "One Thousand and One Hours: Autonomous Driving Motion Prediction Dataset", created by the Lyft Level 5 team. It is designed to provide large-scale, detailed data for motion prediction and planning of autonomous vehicles. The dataset includes 170,000 scenarios, each with a duration of 25 seconds, covering 1,000 hours of driving records collected from 20 autonomous vehicles traveling along a 6.8-mile route in Palo Alto. Besides precise position and motion data of traffic participants such as vehicles, pedestrians and bicycles, the dataset also provides high-definition semantic maps and aerial views to assist prediction-related tasks. This dataset is suitable for developing machine learning tasks for autonomous driving, including motion prediction, motion planning and simulation, and aims to solve key challenges in autonomous driving such as enhancing prediction accuracy and improving planning efficiency.

提供机构：

Lyft Level 5

创建时间：

2020-06-25

搜集汇总

数据集介绍

构建方式

在自动驾驶领域，高质量的行为预测数据集对于推动机器学习算法的发展至关重要。该数据集通过部署20辆自动驾驶车辆，在加州帕洛阿尔托一条固定路线上进行了为期四个月的持续采集，总行驶里程超过26,000公里。数据采集系统融合了7个摄像头、3个激光雷达和5个雷达的感知输出，构建了170,000个时长为25秒的场景。每个场景精确记录了自车及周围交通参与者（车辆、行人、骑行者）的运动状态，并同步采集了交通信号灯状态。数据以压缩的zarr格式存储，支持高效随机访问，便于分布式训练。

特点

该数据集以其前所未有的规模与精细度在自动驾驶预测领域树立了新标杆。其核心特征在于提供了长达1,118小时的行为观测数据，是现有同类公开数据集的三倍以上。数据集不仅包含丰富的动态场景，还配套提供了包含15,242个人工标注元素的高清语义地图，详细编码了车道几何、连接关系、交通规则等信息。此外，覆盖74平方公里、分辨率达6厘米/像素的高清航拍图像，为模型理解环境空间上下文提供了额外维度。这种多模态、高精度的数据组合，为复杂城市环境下的运动预测与规划任务提供了坚实的研究基础。

使用方法

为促进研究应用，数据集配套发布了Python工具包L5Kit，提供了高效的数据加载、采样与可视化功能。研究者在进行运动预测任务时，可基于鸟瞰图（BEV）将场景栅格化，输入神经网络以预测交通参与者未来数秒的轨迹。对于自车运动规划任务，工具包支持以自车为中心的视角采样，并提供了基于模仿学习与扰动增强的基线模型。数据集已按83:7:10的比例划分为训练、验证和测试集，确保了评估的公正性。通过该工具链，研究者能够快速构建并评估端到端的预测与规划模型，推动数据驱动的自动驾驶算法发展。

背景与挑战

背景概述

在自动驾驶技术迅猛发展的背景下，运动预测作为连接感知与规划的关键环节，其研究进展高度依赖于大规模高质量数据集的支持。由Lyft Level 5团队于2020年发布的“One Thousand and One Hours”数据集，正是针对这一需求而构建的里程碑式资源。该数据集采集自2020年3月前四个月内，由20辆自动驾驶车辆在帕洛阿尔托固定路线上行驶所积累的感知数据，总计超过1,118小时、170,000个场景，每个场景持续25秒，精确记录了车辆、行人及骑行者的运动轨迹。核心研究问题聚焦于如何利用海量行为观测数据提升交通参与者运动预测与车辆运动规划的准确性。该数据集不仅提供了包含15,242个标注元素的高清语义地图与高分辨率航拍图像，还配套了L5Kit软件工具包，极大地推动了自动驾驶领域机器学习模型在运动预测与规划任务上的开源研究，为学术界与工业界提供了前所未有的数据基础。

当前挑战

该数据集致力于解决自动驾驶中运动预测与规划任务的挑战，其核心在于如何准确预测交通参与者在复杂动态环境中的未来轨迹，并在此基础上生成安全、高效的车辆运动规划。具体挑战包括：在领域问题层面，模型需处理多智能体交互、长时程预测的不确定性以及地图先验信息的有效融合；同时，规划任务需克服开环评估与闭环执行间的分布偏移问题，确保策略在真实场景中的鲁棒性。在构建过程中，团队面临数据规模与质量的平衡挑战，需融合多传感器感知输出并确保厘米级定位精度；此外，创建包含车道几何、交通信号等丰富语义信息的高清地图需大量人工标注，而数据的高效存储与访问亦通过zarr压缩格式等技术手段加以优化，以支持大规模分布式训练。

常用场景

经典使用场景

在自动驾驶领域，运动预测是确保车辆安全导航的核心环节。该数据集通过提供长达1118小时的高精度感知数据，为研究人员构建和验证运动预测模型奠定了坚实基础。其经典应用场景集中于训练基于鸟瞰图表示的深度学习架构，如卷积神经网络和图神经网络，以准确预测交通参与者未来数秒内的运动轨迹。数据集中的高分辨率语义地图和航拍图像进一步增强了模型对道路几何结构和环境上下文的理解能力，使得预测结果更加符合真实驾驶场景中的物理约束和行为规律。

解决学术问题

该数据集有效解决了自动驾驶研究中数据稀缺与质量不足的瓶颈问题。传统数据集往往规模有限且缺乏精细的环境标注，难以支撑数据驱动的运动预测与规划算法发展。本数据集通过提供超千小时的标注数据、包含15000余个元素的语义地图以及厘米级精度的航拍图像，为学术界提供了前所未有的研究资源。它使得研究人员能够深入探索多智能体交互建模、长时程轨迹预测、以及基于模仿学习的运动规划等前沿课题，显著推动了机器学习在自动驾驶下游任务中的应用边界。

衍生相关工作

该数据集的发布催生了一系列重要的衍生研究工作。在运动预测方向，基于其鸟瞰图表示的研究延续并拓展了VectorNet、Multipath等模型的架构思想，推动了时空图神经网络在轨迹预测中的应用。在运动规划领域，数据集启发了对ChauffeurNet等模仿学习框架的改进，促进了基于扰动增强的端到端规划算法发展。同时，数据集的高质量语义标注也激发了无地图预测方法的研究，探索如何直接从航拍图像中提取驾驶策略先验知识。这些工作共同构成了自动驾驶机器学习研究的重要演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集