ADVLAT-Engine

Name: ADVLAT-Engine
Creator: 加州大学默塞德分校
Published: 2025-05-06 12:38:41
License: 暂无描述

arXiv2025-05-06 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.03174v1

下载链接

链接失效反馈

官方服务：

资源简介：

ADVLAT-Engine是一个用于自动生成大量指令-动作对数据集的自动化数据收集原型系统。该数据集由加州大学默塞德分校的Mi3实验室的研究团队创建，旨在通过使用GPS应用程序和自然语言处理技术，自动收集和分类各种指令，并配合视频数据形成完整的视觉-语言-动作三元组。该数据集包含来自Google Maps、Apple Maps和Waze等导航应用程序的指令，并按照不同的分类进行标注。ADVLAT-Engine可以自动收集数据，包括视频（视觉）、指令（语言）和车辆轨迹（动作），用于训练自主视觉语言导航模型。该数据集的创建过程涉及使用GPS应用程序收集指令，并使用OpenAI Whisper模型进行语音转录，然后将指令与视频帧和GPS位置同步。ADVLAT-Engine的应用领域包括视觉语言导航和人机交互自主系统，旨在解决数据集创建过程中人力成本高、效率低的问题。

ADVLAT-Engine is an automated data collection prototype system for automatically generating large-scale instruction-action pair datasets. This dataset was created by the research team from the Mi3 Lab at the University of California, Merced. It aims to automatically collect and categorize various instructions using GPS applications and natural language processing technologies, and combine them with video data to form complete vision-language-action triplets. This dataset contains instructions from navigation applications such as Google Maps, Apple Maps, and Waze, and is annotated with different categories. ADVLAT-Engine can automatically collect data including video (vision), instructions (language), and vehicle trajectories (action) for training autonomous vision-language navigation models. The creation process of this dataset involves collecting instructions via GPS applications, using the OpenAI Whisper model for speech transcription, and then synchronizing the instructions with video frames and GPS locations. The application scenarios of ADVLAT-Engine include vision-language navigation and human-computer interaction autonomous systems, aiming to address the issues of high labor costs and low efficiency during dataset creation.

提供机构：

加州大学默塞德分校

创建时间：

2025-05-06

搜集汇总

数据集介绍

构建方式

ADVLAT-Engine数据集的构建采用了创新的自动化方法，通过整合全球定位系统（GPS）导航应用的语音指令和自然语言处理（NLP）技术，实现了指令-动作（IA）数据对的自动生成。研究团队在真实驾驶场景中收集了来自不同导航应用（如Google Maps、Apple Maps和Waze）的语音指令，并结合视频数据，形成了完整的视觉-语言-动作（VLA）三元组。这一过程完全自动化，无需人工标注，显著提高了数据生成的效率和规模。

特点

ADVLAT-Engine数据集的特点在于其多样性和结构化。数据集涵盖了八类不同的指令参考类型，包括道路名称、距离、静态对象、转向、方位、地点名称、车道信息和灯光信息。这些指令来自不同的导航应用，展示了丰富的语言表达和参考方式。此外，数据集还包含了同步的视频和车辆轨迹数据，为视觉-语言导航（VLN）任务提供了全面的多模态支持。

使用方法

ADVLAT-Engine数据集的使用方法灵活多样，适用于训练视觉-语言-动作模型。研究者可以通过提取语音指令的文本表示，结合视频帧和车辆轨迹数据，构建端到端的训练样本。数据集的多模态特性支持多种任务，如指令理解、动作预测和场景感知。此外，数据集的自动化生成方式使其易于扩展，适用于不同地理区域和驾驶场景的研究。

背景与挑战

背景概述

ADVLAT-Engine数据集由加州大学默塞德分校的机器智能、交互与想象实验室（Mi3 Laboratory）于2025年提出，旨在解决自动驾驶领域视觉-语言-动作（VLA）三元组数据稀缺的瓶颈问题。该数据集创新性地利用GPS导航应用的语音指令与自然语言处理技术，自动生成大规模指令-动作对，突破了传统人工标注方法在成本与效率上的局限。通过整合车载视频、GPS轨迹与语音指令的三模态同步采集，ADVLAT-Engine为视觉语言导航（VLN）任务提供了首个完全自动化构建的基准数据集，显著推动了人机交互式自动驾驶系统的研究进程。其核心价值在于将移动端导航数据这一未被开发的资源转化为结构化训练数据，为多模态大模型在自动驾驶场景的落地提供了数据基础。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需解决GPS指令与真实驾驶场景的语义对齐问题，包括不同导航应用指令表述的异构性（如距离参照与静态物体参照的差异性）、复杂路口场景的多义性指令解析，以及视觉感知与语言指令的时空同步精度要求。在构建过程中，系统需克服多模态数据流的高精度时间同步、噪声环境下语音指令的鲁棒识别（如背景人声干扰）、以及开放道路环境中视频与GPS信号的动态校准等工程难题。此外，如何将离散的导航指令分类体系（8类参照属性）扩展至连续驾驶决策的端到端学习框架，仍是当前VLA模型训练的关键挑战。

常用场景

经典使用场景

ADVLAT-Engine数据集在自动驾驶领域中被广泛用于构建视觉-语言-动作（VLA）三元组，通过整合GPS导航应用的语音指令、车辆轨迹数据和同步视频流，为自动驾驶系统提供丰富的训练素材。该数据集特别适用于研究车辆在复杂道路环境中的导航决策过程，能够模拟真实驾驶场景中的多模态交互。

实际应用

在工业实践中，ADVLAT-Engine被用于开发车载智能助手和自动驾驶测试系统。例如，结合实时GPS指令与车载摄像头数据，可训练模型理解‘在下一个红绿灯左转’等复杂指令，并生成对应控制信号。其自动化特性使得地区性驾驶数据（如特定城市的交通标志）的快速采集成为可能，助力本地化自动驾驶解决方案。

衍生相关工作

基于ADVLAT-Engine的范式，后续研究衍生出多模态数据融合框架如OpenEMMA和DriveLLaVA，进一步扩展了端到端自动驾驶模型的输入维度。其自动化标注方法亦启发LiDAR点云标注工具（如3D-BAT）的优化，形成跨模态数据标注的技术迁移。数据集分类体系还被nuScenes-QA等基准采纳，用于评估语言-视觉模型的场景理解能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集