LaMPilot-Bench

arXiv2024-04-04 更新2024-07-30 收录

下载链接：

https://github.com/PurdueDigitalTwin/LaMPilot

下载链接

链接失效反馈

官方服务：

资源简介：

首个专门设计用于定量评估自动驾驶中语言模型程序效能的基准数据集。

The first benchmark dataset specifically designed to quantitatively evaluate the performance of language model programs in autonomous driving.

创建时间：

2023-12-07

原始信息汇总

LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model Programs

作者

Yunsheng Ma
Can Cui
Xu Cao
Wenqian Ye
Peiran Liu
Juanwu Lu
Amr Abdelraouf
Rohit Gupta
Kyungtae Han
Aniket Bera
James M. Rehg
Ziran Wang

数据集

LaMPilot数据集即将发布。请关注更新！

引用

如果您在研究中使用了此数据集，请考虑引用我们的论文：

bibtex @inproceedings{ma2024lampilot, title={LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model Programs}, author={Ma, Yunsheng and Cui, Can and Cao, Xu and Ye, Wenqian and Liu, Peiran and Lu, Juanwu and Abdelraouf, Amr and Gupta, Rohit and Han, Kyungtae and Bera, Aniket and Rehg, James M. and Wang, Ziran}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, year={2024} }

搜集汇总

数据集介绍

构建方式

LaMPilot-Bench 数据集的构建基于 LaMPilot 框架，该框架将大型语言模型（LLMs）集成到自动驾驶系统中，以生成代码来执行用户指令。数据集包含 4,900 个半人工标注的交通场景，每个场景包括一个自然语言描述的任务、初始状态和目标状态标准。这些场景涵盖了多种驾驶情况，如高速公路和交叉路口，旨在全面评估语言模型程序在自动驾驶中的有效性。

特点

LaMPilot-Bench 数据集的主要特点是其多样性和复杂性。它包含了各种驾驶场景，从简单的速度调整到复杂的超车和变道任务。此外，数据集还提供了详细的 API 文档和功能原语，使 LLMs 能够生成可执行的驾驶计划。这些特点使得 LaMPilot-Bench 成为评估和比较基于 LLM 的自动驾驶代理性能的理想平台。

使用方法

使用 LaMPilot-Bench 数据集时，研究人员可以利用其丰富的场景和详细的 API 文档来训练和评估大型语言模型在自动驾驶中的应用。通过模拟器和评估器，可以对生成的代码进行安全性和效率的评估。数据集还支持零样本和少样本学习，以及人类反馈的集成，从而提供了多种方法来提升模型的性能和鲁棒性。

背景与挑战

背景概述

近年来，自动驾驶技术取得了显著进展，但现有框架在解释和执行自发用户指令方面仍存在局限。LaMPilot-Bench数据集由Purdue University、University of Illinois Urbana-Champaign、University of Virginia和Toyota Motor North America的InfoTech Labs联合开发，旨在通过集成大型语言模型（LLMs）来增强自动驾驶系统对用户指令的响应能力。该数据集的核心研究问题是如何使自动驾驶系统能够理解和执行复杂的自然语言指令，如‘超车’。LaMPilot-Bench的推出填补了自动驾驶领域在评估语言模型程序效能方面的空白，为推动自动驾驶技术的进一步发展提供了重要资源。

当前挑战

LaMPilot-Bench数据集面临的挑战主要包括两个方面。首先，如何有效地将大型语言模型整合到自动驾驶系统的决策过程中，缺乏成熟的范式。其次，缺乏专门设计的基准来评估和比较基于语言模型的代理在驾驶环境中的表现。此外，数据集在构建过程中还需克服语言模型在生成代码时可能引入的延迟问题，以及确保生成的代码在实际驾驶环境中既安全又高效。这些挑战不仅涉及技术层面的创新，还需要跨学科的合作与深入研究。

常用场景

经典使用场景

LaMPilot-Bench 数据集的经典使用场景在于评估和提升自动驾驶系统对自然语言指令的解释和执行能力。通过提供多样化的驾驶场景和复杂的用户指令，该数据集允许研究人员测试大型语言模型（LLMs）在生成符合用户意图的驾驶策略方面的表现。例如，数据集中的任务可能包括‘超车前方的车辆’或‘在交叉路口左转’，这些任务要求模型不仅理解指令，还要生成安全的驾驶策略。

衍生相关工作

LaMPilot-Bench 数据集的发布激发了大量相关研究工作，特别是在多模态学习和人机交互领域。例如，一些研究开始探索如何将视觉信息与语言模型结合，以提高自动驾驶系统对复杂交通场景的理解能力。此外，还有研究致力于开发更高效的模型微调方法，以便在有限的训练数据下提升模型的性能。这些衍生工作不仅扩展了 LaMPilot 框架的应用范围，还推动了自动驾驶技术的整体进步。

数据集最近研究