DriveLMM-o1

Name: DriveLMM-o1
Creator: Mohamed Bin Zayed University of Artificial Intelligence, Linköping University, Australian National University
Published: 2025-03-14 01:59:01
License: 暂无描述

arXiv2025-03-14 更新2025-03-15 收录

下载链接：

https://github.com/ayesha-ishaq/DriveLMM-o1

下载链接

链接失效反馈

官方服务：

资源简介：

DriveLMM-o1是一个专为自动驾驶场景理解设计的步进推理数据集，由 Mohamed Bin Zayed University of Artificial Intelligence 等机构创建。该数据集包含超过18000个训练集问题和4000多个测试集问题，覆盖了感知、预测和规划等多个方面的驾驶相关问题，每个问题都配备了逐步推理的注释。数据集整合了多视角图像和LiDAR点云，以支持模型对复杂驾驶场景的全面理解。

DriveLMM-o1 is a step-by-step reasoning dataset specifically designed for autonomous driving scenario understanding, developed by Mohamed Bin Zayed University of Artificial Intelligence and other institutions. This dataset includes over 18,000 training questions and more than 4,000 test questions, covering a variety of driving-related problems across multiple aspects such as perception, prediction and planning, and each question is provided with step-by-step reasoning annotations. The dataset integrates multi-view images and LiDAR point clouds to enable models to comprehensively understand complex driving scenarios.

提供机构：

Mohamed Bin Zayed University of Artificial Intelligence, Linköping University, Australian National University

创建时间：

2025-03-14

搜集汇总

数据集介绍

构建方式

为了应对自动驾驶中视觉推理的挑战，DriveLMM-o1数据集采用了从NuScenes数据集中提取关键帧和相关对象的方法，并结合手动标注的逐步推理步骤构建。首先，使用现有的大型多模态模型（LMM）生成初始的推理步骤和答案，然后由人工标注者进行仔细的修正和验证，确保推理的逻辑一致性和事实的正确性。此外，数据集还包含了多视图图像和激光雷达点云数据，以促进未来视觉问答（VQA）解决方案中各种模态的整合。

特点

DriveLMM-o1数据集的特点在于其丰富的多模态输入和逐步推理的标注。数据集涵盖了超过18k个视觉问答示例，包含感知、预测和规划等多样化的驾驶场景问题，并附有逐步推理步骤，以确保自动驾驶场景中的逻辑推理。此外，数据集还引入了专门针对自动驾驶的评估指标，以衡量模型生成解释的逻辑一致性和准确性。

使用方法

使用DriveLMM-o1数据集的方法主要包括以下几个方面：首先，通过数据集中的多视图图像和激光雷达点云数据，模型可以获得对驾驶环境的全面理解；其次，模型需要在逐步推理步骤的指导下，进行感知、预测和规划等任务，并最终生成一个准确的答案；最后，模型的表现将通过数据集提供的评估指标进行评估，以确保其推理过程和最终答案的准确性和逻辑一致性。

背景与挑战

背景概述

在自动驾驶领域，视觉推理能力对于理解道路环境、解释动态交互以及实时做出明智决策至关重要。为了应对自动驾驶中复杂的多步任务，研究者们致力于将语言模型集成到自动驾驶的视觉问答（VQA）中，从而生成直接基于驾驶场景输入的响应。尽管近年来取得了进展，但现有的方法往往强调最终任务的准确性，而忽略了中间推理步骤的质量。为了填补这一空白，我们提出了DriveLMM-o1，一个专门为自动驾驶设计的全新数据集和基准，旨在推动逐步视觉推理的发展。该基准包含了超过18k个VQA示例的训练集和超过4k个测试集，涵盖了感知、预测和规划方面的多样化问题，每个问题都丰富了逐步推理，以确保在自动驾驶场景中的逻辑推理。此外，我们还引入了一个在大规模推理数据集上微调的大型多模态模型，该模型在复杂驾驶场景中表现出稳健的性能。我们还对各种开源和闭源方法在我们的数据集上进行了基准测试，系统地比较了它们在自动驾驶任务中的推理能力。我们的模型在最终答案准确率上取得了+7.49%的提升，同时在推理分数上比之前的最佳开源模型提高了3.62%。我们的框架、数据集和模型可在https://github.com/ayesha-ishaq/DriveLMM-o1获得。

当前挑战

自动驾驶场景下的视觉推理是一个具有挑战性的任务，它要求模型在做出决策之前进行彻底的认知处理。这包括对视觉线索的顺序和解释性理解，这对于有效的感知、预测和规划至关重要。然而，常见的VQA基准通常关注最终答案的准确性，而忽略了使准确响应成为可能的推理过程。此外，现有方法缺乏一个全面的框架，用于评估在现实驾驶场景中的逐步推理。为了解决这一差距，我们提出了DriveLMM-o1，这是一个专门设计用于推进自动驾驶逐步视觉推理的新数据集和基准。我们的基准特征包括超过18k个VQA示例的训练集和超过4k个测试集，涵盖了感知、预测和规划方面的多样化问题，每个问题都丰富了逐步推理，以确保在自动驾驶场景中的逻辑推理。我们进一步引入了一个大型多模态模型，该模型在我们的推理数据集上进行微调，在复杂驾驶场景中表现出稳健的性能。此外，我们在我们的数据集上对各种开源和闭源方法进行了基准测试，系统地比较了它们在自动驾驶任务中的推理能力。我们的模型在最终答案准确率上取得了+7.49%的提升，同时在推理分数上比之前的最佳开源模型提高了3.62%。

常用场景

经典使用场景

DriveLMM-o1数据集旨在推进自动驾驶场景中的逐步视觉推理能力。该数据集包含超过18k个训练集和4k个测试集的VQA示例，涵盖了感知、预测和规划等方面的多样化问题，每个问题都附有逐步推理，以确保在自动驾驶场景中的逻辑推理。此外，该数据集还引入了一个大型多模态模型，该模型在推理数据集上进行了微调，并在复杂的驾驶场景中表现出强大的性能。该数据集还评估了各种开源和闭源方法，系统地比较了它们在自动驾驶任务中的推理能力。DriveLMM-o1数据集和模型可在https://github.com/ayesha-ishaq/DriveLMM-o1获得。

衍生相关工作

DriveLMM-o1数据集衍生了许多相关工作，例如：1. NuScenes-QA：这是一个多模态VQA基准，通过多视图图像、点云和问题-答案对来评估推理能力。2. LingoQA：这是一个基准和自动驾驶VQA数据集，强调自由形式的问答和基于视觉语言的模型。3. Reason2Drive：这是一个大型基准，具有结构化对象中心注释，重点关注推理特定的问题。4. DrivingVQA：这是一个基于驾驶理论测试的基准，强调逐步推理以评估代理人在驾驶相关决策中的推理能力。此外，DriveLMM-o1数据集还衍生了LlamaV-o1，这是一个多模态推理模型，通过课程学习和束搜索进行训练，在多模态逐步视觉推理方面取得了显著的准确性提升。这些相关工作表明，DriveLMM-o1数据集在自动驾驶领域的逐步推理研究中具有重要意义，并为自动驾驶技术的发展提供了新的思路和方法。

数据集最近研究