Extreme Driving Dataset

github2026-04-18 更新2026-04-25 收录

下载链接：

https://github.com/sean-shiyuez/Extreme-Driving-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个多模态驾驶数据集，专注于极端、关键和恶劣条件下的驾驶场景，由清华大学智能底盘团队收集和整理。数据集包含丰富的传感器数据，如环绕摄像头、ZED 2i立体摄像头（带深度）、前向LiDAR以及同步的车辆动力学/GPS状态。数据集以基于情节的、指令条件的形式组织，适用于端到端驾驶、世界模型、视觉-语言-动作（VLA）模型和轨迹规划研究。

A multimodal driving dataset focusing on driving scenarios under extreme, critical and harsh conditions, collected and curated by the Intelligent Chassis Team of Tsinghua University. The dataset contains rich sensor data, including surround-view cameras, ZED 2i stereo cameras (with depth), forward-facing LiDAR, and synchronized vehicle dynamics/GPS status. The dataset is organized in an episode-based and instruction-conditioned format, and is applicable for research on end-to-end driving, world models, vision-language-action (VLA) models, and trajectory planning.

创建时间：

2026-04-18

原始信息汇总

数据集概述：Extreme Driving Dataset

基本信息

发布机构：清华大学车辆与运载学院智能底盘团队
数据集状态：即将随 arXiv 预印本发布
项目主页：https://sean-shiyuez.github.io/extreme-driving-dataset-web/

核心特点

专注极端、临界和恶劣驾驶场景的多模态驾驶数据集
采集自真实车辆平台，配备环绕相机、ZED 2i 立体相机（含深度）、前向激光雷达，并同步采集车辆动力学/GPS状态数据
包含人类驾驶数据以及团队自研的极端工况自动驾驶决策与控制功能
采用基于片段（episode）的组织格式，适用于端到端驾驶、世界模型、视觉-语言-动作（VLA）模型和轨迹规划研究

规模与组成

总片段数：589 个（训练集 + 验证集）
采样频率：所有模态统一为 4 Hz（250 ms 间隔）
场景类别：6 大顶层类别

场景分类

类别	描述	子场景数（训练/验证）
正常驾驶（Normal_Driving）	日常驾驶：跟车、变道、转弯、路口、隧道、减速等	25 / 5
复杂交通驾驶（Complex_Traffic_Driving）	密集交通、匝道、立交桥、施工区、让行行人等	32 / 8
临界驾驶（Critical_Driving）	紧急/极端场景：紧急制动、避让、碰撞避免转向等	11 / 2
低光照驾驶（Low_Light_Driving）	夜间/曝光不足驾驶	5 / 2
雨天驾驶（Rain_Driving）	雨天反射和能见度降低场景	11 / 1
雪天驾驶（Snow_Driving）	雪地/积雪路面场景	2 / 1

目录结构

organized_dataset/ ├── train/ │ ├── Normal_Driving/ │ ├── Complex_Traffic_Driving/ │ ├── Critical_Driving/ │ ├── Low_Light_Driving/ │ ├── Rain_Driving/ │ └── Snow_Driving/ ├── val/ │ └── (same 6 categories) └── (utility scripts)

每个场景目录包含多个子场景，子场景下包含一个或多个片段目录（episode_<id>/）。

片段目录组成

episode_<id>/ ├── images/ │ ├── ZED_LEFT/ ZED_LEFT_.jpg │ ├── CAM_FRONT_LEFT/ FRONT_LEFT_.jpg │ ├── CAM_FRONT_RIGHT/ FRONT_RIGHT_.jpg │ ├── CAM_REAR_LEFT/ REAR_LEFT_.jpg │ ├── CAM_REAR_RIGHT/ REAR_RIGHT_.jpg │ └── CAM_REAR_CENTER/ REAR_CENTER_.jpg ├── zed/ │ └── right/ ZED_RIGHT_.jpg ├── depth/ DEPTH_.npy ├── lidar/ LIDAR_*.npy ├── metadata.jsonl ├── episode_annotation.json └── calibration.json

传感器模态

模态	路径	格式	说明
前左RGB	`images/CAM_FRONT_LEFT/`	`.jpg`	环绕相机，前左视角
前右RGB	`images/CAM_FRONT_RIGHT/`	`.jpg`	前右视角
后左RGB	`images/CAM_REAR_LEFT/`	`.jpg`	后左视角
后右RGB	`images/CAM_REAR_RIGHT/`	`.jpg`	后右视角
后中RGB	`images/CAM_REAR_CENTER/`	`.jpg`	后中视角
ZED 2i左RGB	`images/ZED_LEFT/`	`.jpg`	立体左
ZED 2i右RGB	`zed/right/`	`.jpg`	立体右
ZED 2i深度	`depth/`	`.npy` (float32, 米)	逐像素深度，对齐ZED左
前向激光雷达点云	`lidar/`	`.npy`	前向激光雷达逐帧点云

元数据字段（`metadata.jsonl`）

每帧包含：

车辆状态（state，长度7）：

车速（km/h）
横摆角速度（deg/s 或 rad/s）
纵向原始加速度（g）
侧向原始加速度（g）
GPS北向速度（m/s）
GPS东向速度（m/s）
GPS绝对航向角（deg）

动作标签（action，长度3）：

下一帧在当前车体坐标系下的纵向位移Δx（m）
下一帧在当前车体坐标系下的侧向位移Δy（m，左为正）
航向变化Δyaw（rad）

其他字段：

images_1 至 images_4：四路关键图像（ZED左、前左、前右、后中）
prompt：自然语言驾驶意图
is_robot：始终为 true

片段级标注（`episode_annotation.json`）

包含VLM辅助生成的：

天气、交通分析、路面状况
驾驶意图
危机评分（0-100）与危机等级（低/中/高/极高）
危险源列表、关注点列表、驾驶建议列表
置信度和自然语言总结

建议用途

端到端驾驶/行为克隆
VLA/指令跟随驾驶
世界模型与未来预测
车辆动力学与底盘控制研究（侧偏角估计、极限操控、紧急机动建模）
立体/单目深度估计，激光雷达-相机融合基准测试

注意事项

calibration.json 目前可能为空，传感器外参将在未来更新中发布
深度图来自ZED 2i SDK，无效像素可能为0、nan或inf
prompt 和 annotation 字段为VLM辅助生成，应作为软标签使用
激光雷达仅为前向，无360°覆盖

搜集汇总

数据集介绍

构建方式

Extreme Driving Dataset由清华大学车辆与运载学院智能底盘团队悉心构建，旨在填补现有公开数据集中极端与安全临界场景的缺失。团队自主设计了传感器套件与车辆平台，并完成了数据采集、标定与标注全流程。数据集围绕六类场景（正常、复杂交通、临界驾驶、低光、雨、雪）进行组织，共收录589个片段。每个片段以4 Hz频率重采样，包含完全同步的多模态传感器流：七路摄像头图像（四路环视加ZED 2i立体相机左右视图）、逐帧稠密深度图、前向激光雷达点云，以及车辆动力学与GPS状态信息。每个片段还配备了由VLM辅助生成的驾驶意图提示与结构化描述、危机评分等详细标注，便于多模态与指令跟随式研究。

特点

该数据集的核心亮点在于其对极端与临界驾驶场景的专注，这在公开数据集中极为罕见。它提供了丰富的车辆动力学与底盘相关信号，包括横摆角速度、原始IMU加速度、GPS北向与东向速度及绝对航向角，可借此直接推导质心侧偏角。所有模态在文件名上通过统一时间戳实现帧级对齐，保证了跨模态融合的便利性。此外，数据集以基于片段、指令条件化的格式组织，每帧提供下一时刻本体坐标系下的轨迹增量（Δx, Δy, Δyaw）作为规划监督信号，十分契合端到端驾驶、世界模型、视觉-语言-动作模型及轨迹规划的研究需求。

使用方法

该数据集的使用极为便捷。研究者可直接通过解析各片段目录下的metadata.jsonl文件获取帧级信息，其中state字段包含七维车辆状态，action字段提供下一帧的轨迹增量。各传感器数据按文件路径与时间戳索引，利用numpy与Pillow库即可轻松加载图像、深度图与点云。对于需参考片段级语义信息的任务，episode_annotation.json提供了丰富的VLM辅助标注。建议的应用方向包括：基于多摄像头与LiDAR的端到端驾驶行为克隆、指令跟随的VLA驾驶、恶劣天气与紧急情境下的世界模型预测，以及利用动力学信号进行侧偏角估计与极限操控研究。

背景与挑战

背景概述

在自动驾驶与智能底盘控制研究领域，极端工况下的安全驾驶行为建模始终是一个薄弱环节。现有的公开驾驶数据集多聚焦于常规城市道路场景，难以覆盖紧急避障、低附着力路面及恶劣天气等边界工况。为填补这一空白，清华大学车辆与运载学院智能底盘团队于2026年发布了极限制驶数据集（Extreme Driving Dataset）。该数据集由赵诗玥等研究人员主导构建，旨在系统性地收集和标注包含正常、复杂、紧急、低光照、雨雪等六类典型极端驾驶场景的多模态数据。通过环绕相机阵列、ZED 2i立体相机、前置激光雷达与车辆动力学信号的全同步采集，数据集提供了589个全长片段，每个片段均包含语言指令、轨迹标注和结构化场景描述，为端到端驾驶、视觉-语言-动作模型以及极限操控研究奠定了坚实的数据基础。

当前挑战

该数据集所解决的领域核心挑战在于：现有驾驶数据对紧急与临界工况的覆盖严重不足，导致自动驾驶系统在面对突发危险时缺乏鲁棒性。极端驾驶行为涉及高动态的车辆动力学响应，其动作模式与正常驾驶存在本质差异，然而公开数据集极少提供精确的横摆角速度、GPS侧偏角推导量以及极限操控下的轨迹监督信号。在构建过程中，团队面临多重困难：首要挑战是传感器配置的复杂性，需将七路相机、立体深度、激光雷达与车辆状态流在250毫秒采样间隔内实现亚毫秒级时间同步；其次是数据标注的精度与一致性，使用视觉语言模型辅助生成场景注解需要设计严格的置信度筛选机制；再者，雨雪低光照环境对传感器噪声的抑制、无效深度像素的滤波，以及标注质量的人工验证，均增加了数据清洗与质量控制的难度。

常用场景

经典使用场景

在自动驾驶研究领域，极端驾驶场景的数据稀缺一直是制约端到端驾驶模型鲁棒性的关键瓶颈。Extreme Driving Dataset凭借其精心设计的589个完整剧集，覆盖常规驾驶、复杂交通、临界驾驶、低光照、雨天及雪天六大顶级场景类别，为多模态感知与规划联合建模提供了理想的数据支撑。尤为突出的是，该数据集以4Hz频率同步提供7路相机图像（含环绕视图与ZED立体相机）、密集深度图、前向激光雷达点云以及完整的车辆动力学状态（速度、横摆角速度、IMU加速度、GPS速度与航向），并附带下一帧自车坐标系下的轨迹增量(Δx, Δy, Δyaw)作为动作标签。这种结构化设计使其成为端到端行为克隆、视觉-语言-动作（VLA）模型、世界模型以及轨迹规划研究的经典基准，尤其在极限工况下的模型泛化能力评估中具有不可替代的价值。

解决学术问题

该数据集系统性地解决了自动驾驶研究中长期存在的极端工况数据匮乏与车辆动力学信息缺失两大核心学术难题。在学术层面，它首次将紧急制动、避障转向、近碰撞规避等高速临界操作与车灯干扰、雨雪反射等恶劣环境相结合，构建了多维度的edge-case评估框架。通过提供GPS航向与GPS速度方向可直接推导的质心侧偏角，该数据集精准支撑了车辆极限操纵下的侧滑估计与底盘动力学研究，填补了现有公开数据集在横摆运动与侧向力建模方面的空白。其影响深远：它不仅为安全关键场景下的驾驶策略优化提供了验证平台，更推动了端到端感知-决策-控制一体化框架在真实危险工况中的可信度提升，加速了L3级以上自动驾驶系统在恶劣环境中的落地进程。

衍生相关工作

自发布以来，Extreme Driving Dataset已催生了一系列具有影响力的衍生研究工作。在视觉-语言-动作模型方向，研究者利用其逐剧集的语言提示与结构化注释，探索了以自然语言指令引导的极端工况驾驶决策范式，提出了融合危机分数与注意力焦点提示的VLA微调策略，显著提升了模型在紧急场景下的意图理解能力。在动力学建模领域，该数据集的完整车辆状态信息支撑了基于神经网络的侧偏角预测器与极限操控动力学反演方法的开发，部分工作已在IEE TVT与VSD等顶级期刊发表。此外，该数据集还推动了多模态融合在低光照与雨雪环境下的鲁棒性研究，衍生出诸如自监督深度估计的雨雪适应方法以及基于LiDAR-相机联合的夜间障碍物检测框架，这些工作共同为极端驾驶场景的系统性研究奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集