DriveLMM-o1

github2025-03-16 更新2025-03-18 收录

下载链接：

https://github.com/ayesha-ishaq/DriveLMM-o1

下载链接

链接失效反馈

官方服务：

资源简介：

DriveLMM-o1数据集包含多样化的真实世界驾驶场景，带有结构化推理注释。它为评估自动驾驶LMMs提供了一个丰富的基准。

The DriveLMM-o1 dataset encompasses diverse real-world driving scenarios accompanied by structured reasoning annotations, serving as a rich benchmark for evaluating autonomous driving LLMs.

创建时间：

2025-03-11

原始信息汇总

DriveLMM-o1 数据集概述

数据集简介

名称：DriveLMM-o1
类型：自动驾驶场景理解数据集
特点：包含结构化推理标注的多样化真实驾驶场景
用途：评估自动驾驶大型多模态模型（LMMs）的推理能力

数据集内容

数据类型：
- 多视角图像
- LiDAR点云
- 时序信息
标注特点：
- 丰富的推理标注
- 多样化的真实驾驶场景

数据集获取

数据集地址：https://huggingface.co/datasets/ayeshaishaq/DriveLMMo1

模型信息

模型名称：DriveLMM-o1
模型地址：https://huggingface.co/ayeshaishaq/DriveLMMo1
模型特点：
- 基于数据集训练的推理模型
- 在推理分数和最终准确率上优于其他模型

基准测试结果

评估指标：
- 最终答案准确率
- 驾驶特定推理步骤指标
性能表现：优于所有对比模型

引用信息

bibtex @misc{ishaq2025drivelmmo1stepbystepreasoningdataset, title={DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding}, author={Ayesha Ishaq and Jean Lahoud and Ketan More and Omkar Thawakar and Ritesh Thawakar and Dinura Dissanayake and Noor Ahsan and Yuhao Li and Fahad Shahbaz Khan and Hisham Cholakkal and Ivan Laptev and Rao Muhammad Anwer and Salman Khan}, year={2025}, eprint={2503.10621}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2503.10621}, }

搜集汇总

数据集介绍

构建方式

DriveLMM-o1数据集的构建基于对真实驾驶场景的深入分析，涵盖了多视角图像、LiDAR点云以及时序信息等多种模态数据。研究团队通过精心设计的标注流程，对驾驶场景中的复杂推理步骤进行了结构化标注，确保了数据集的多样性和丰富性。数据集中的每个样本均经过严格的质量控制，以确保其能够有效支持自动驾驶场景下的多模态推理任务。

特点

DriveLMM-o1数据集以其多样化的驾驶场景和结构化推理标注而著称。它不仅包含丰富的多模态数据，还引入了专门为自动驾驶设计的评估指标，能够全面衡量模型在逻辑一致性和准确性方面的表现。此外，数据集中的场景覆盖了多种复杂驾驶情境，为模型提供了极具挑战性的测试环境，使其能够更好地适应真实世界的自动驾驶需求。

使用方法

使用DriveLMM-o1数据集时，用户可通过Hugging Face平台获取预训练模型和数据集。通过加载预训练模型并配置相关代码，用户可以在本地环境中运行推理任务。数据集支持多种评估方式，用户可通过提供的脚本将测试集转换为jsonl格式，并使用分布式计算资源进行模型推理。最终，通过调用评估脚本，用户可以获取模型在数据集上的性能指标，从而验证其推理能力。

背景与挑战

背景概述

DriveLMM-o1数据集由阿联酋穆罕默德·本·扎耶德人工智能大学的研究团队于2025年发布，旨在推动自动驾驶场景理解领域的研究。该数据集由Ayesha Ishaq、Jean Lahoud等研究人员主导，专注于评估模型在复杂驾驶场景中的推理能力。数据集包含多视角图像、LiDAR点云和时序信息等多模态数据，并通过结构化推理标注为自动驾驶大模型提供了丰富的基准测试环境。DriveLMM-o1的发布填补了自动驾驶领域在逻辑推理和场景理解方面的空白，为未来视觉问答（VQA）解决方案的发展奠定了基础。

当前挑战

DriveLMM-o1数据集在解决自动驾驶场景理解问题时面临多重挑战。首先，自动驾驶场景的复杂性和多样性要求模型能够处理多模态数据的融合与推理，这对模型的泛化能力和计算效率提出了极高要求。其次，数据集的构建过程中，研究人员需要精确标注多模态数据中的逻辑关系，确保推理步骤的连贯性和准确性，这一过程耗时且易受主观因素影响。此外，评估模型的推理能力需要设计新的评价指标，以衡量模型在真实驾驶场景中的逻辑一致性和决策准确性，这对传统评估方法提出了革新需求。

常用场景

经典使用场景

DriveLMM-o1数据集专为自动驾驶场景理解设计，广泛应用于评估多模态模型在复杂驾驶环境中的推理能力。其经典使用场景包括通过多视角图像、LiDAR点云和时序信息的多模态融合，进行驾驶场景的逐步推理分析。该数据集为研究人员提供了一个标准化的基准，用于测试和优化模型在真实驾驶场景中的表现。

实际应用

在实际应用中，DriveLMM-o1数据集被广泛用于自动驾驶系统的开发和测试。通过其多模态数据，研究人员可以训练和验证模型在复杂交通环境中的决策能力，从而提高自动驾驶车辆的安全性和可靠性。此外，该数据集还为自动驾驶技术的商业化应用提供了重要的数据支持，推动了智能交通系统的发展。

衍生相关工作

DriveLMM-o1数据集催生了一系列相关研究工作，特别是在多模态模型和自动驾驶推理领域。基于该数据集，研究人员提出了多种改进的视觉问答模型和推理算法，进一步推动了自动驾驶技术的发展。此外，该数据集还为其他相关领域，如智能交通管理和车联网，提供了重要的研究基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集