OmniDrive

Name: OmniDrive
Creator: 英伟达（NVIDIA）
Published: 2025-04-06 11:54:21
License: 暂无描述

arXiv2025-04-06 更新2025-04-09 收录

下载链接：

https://github.com/NVlabs/OmniDrive

下载链接

链接失效反馈

官方服务：

资源简介：

OmniDrive是一个面向自动驾驶的全息视觉语言数据集，由英伟达公司创建，通过对抗性推理生成高质量的问题答案对（Q&A），覆盖了感知、推理和规划等3D领域的需求。该数据集利用模拟轨迹和实际轨迹，通过规则复选框和GPT-4生成结构化的问题答案，旨在为自动驾驶的决策制定提供更加丰富的监督信号。

OmniDrive is a holographic vision-language dataset for autonomous driving created by NVIDIA. It generates high-quality question-answer (Q&A) pairs via adversarial reasoning, covering 3D domain requirements including perception, reasoning and planning. Leveraging both simulated and real-world trajectories, the dataset generates structured Q&A pairs through rule-based checklists and GPT-4, aiming to provide richer supervision signals for autonomous driving decision-making.

提供机构：

英伟达（NVIDIA）

创建时间：

2025-04-06

搜集汇总

数据集介绍

构建方式

OmniDrive数据集通过反事实推理方法构建，结合了模拟轨迹与实际轨迹生成高质量的问答数据。首先从nuScenes数据集中提取关键帧，利用CLIP嵌入和K-means聚类筛选最具代表性的静态与动态交通元素。随后，基于模拟轨迹设计规则检查表，通过GPT-4生成连贯的问答对，并结合人工循环验证确保数据质量。这一流程实现了从语义关键帧选择到大规模数据迭代的系统化生成。

特点

OmniDrive作为首个融合反事实推理的自动驾驶视觉-语言数据集，其核心特点在于三维场景与语言推理的深度对齐。数据集涵盖感知、决策与规划任务，通过结构化3D场景表示简化复杂环境理解，并利用模拟轨迹生成密集监督信号。独特的规则检查表机制确保了交通场景覆盖的全面性，而多视角图像与3D位置编码的整合进一步增强了空间推理能力，为端到端自动驾驶模型提供了丰富的多模态训练素材。

使用方法

该数据集支持两种典型应用范式：基于视觉-语言对齐的Omni-L框架可直接利用MLP投影器处理多视角图像特征；而强调3D感知的Omni-Q框架则通过Q-Former架构融合BEV特征与语言模型。使用者可通过两阶段训练策略（2D预训练与3D微调）优化模型性能，在nuScenes开环规划、DriveLM问答等基准测试中验证效果。数据集的问答对设计特别适用于反事实推理、注意力分配等复杂驾驶场景的算法开发。

背景与挑战

背景概述

OmniDrive是由NVIDIA、香港理工大学及北京理工大学的研究团队于2025年提出的自动驾驶领域创新数据集，其核心目标是通过反事实推理（counterfactual reasoning）构建三维视觉-语言对齐的驾驶场景理解框架。该数据集基于nuScenes平台开发，整合了多视角图像、3D物体检测、高精地图元素等模态数据，采用GPT-4生成的高质量问答对（Q&A）来模拟人类驾驶决策过程。其创新性体现在将传统稀疏轨迹监督扩展为密集语义推理信号，为端到端自动驾驶系统的可解释性研究提供了新范式。作为首个融合反事实推理与三维场景理解的驾驶数据集，OmniDrive在DriveLM问答基准和nuScenes开环规划任务中显著提升了模型性能，推动了自动驾驶从感知到认知的跨越。

当前挑战

OmniDrive面临的挑战主要体现在三维空间理解与决策优化的双重维度。在领域问题层面，传统二维视觉语言模型（VLMs）难以捕捉驾驶场景中的三维几何关系，需解决多视角图像特征与语言模态的精准对齐问题；同时，开环规划中专家轨迹的稀疏性导致模型易过拟合，需通过反事实推理生成多样化决策样本。在构建过程中，数据集需克服三维场景描述的复杂性——直接输入无序的3D物体和车道线信息会导致GPT-4理解偏差，研究团队创新性地采用轨迹中心化表示和规则检查表来结构化场景信息。此外，大规模数据生成需平衡自动化效率与人工质检的精度，通过关键帧聚类和人类介入循环验证确保数据质量。

常用场景

经典使用场景

OmniDrive数据集在自动驾驶领域中被广泛应用于视觉语言模型的训练与评估，特别是在3D场景理解和反事实推理任务中。其多视角图像与3D轨迹标注的独特组合，为研究车辆决策规划系统提供了丰富的多模态数据基础。该数据集通过模拟真实驾驶场景中的关键帧选择机制，有效支持了从感知到规划的端到端算法开发。

衍生相关工作

基于OmniDrive衍生的Omni-L和Omni-Q框架已成为自动驾驶视觉语言模型的基准架构。这些工作开创性地探索了从2D视觉语言对齐到3D感知整合的不同技术路径，启发了后续DriveGPT4等模型的开发。数据集构建方法还被扩展到OpenLane-V2等道路拓扑理解项目中，推动了多模态自动驾驶研究的范式革新。

数据集最近研究