InstructScene

Name: InstructScene
Creator: 清华大学; GigaAI
Published: 2026-03-27 01:59:56
License: 暂无描述

arXiv2026-03-27 更新2026-03-28 收录

下载链接：

https://github.com/zuosc19/Vega

下载链接

链接失效反馈

官方服务：

资源简介：

InstructScene是由清华大学与GigaAI联合构建的大规模自动驾驶指令数据集，包含10万条标注自然语言指令与对应轨迹的场景数据，基于NAVSIM平台扩展生成。数据集通过视觉语言模型自动生成驾驶意图描述，并辅以规则化方法补充，形成图像-指令-动作三元组序列。其核心价值在于推动模仿驾驶向指令驾驶的范式转变，为个性化自动驾驶系统提供细粒度监督信号，支持视觉-语言-动作联合建模研究。

InstructScene is a large-scale autonomous driving instruction dataset jointly constructed by Tsinghua University and GigaAI. Expanded and generated based on the NAVSIM platform, it contains 100,000 pieces of scene data paired with annotated natural language instructions and their corresponding trajectories. The dataset automatically generates driving intention descriptions via vision-language models, supplemented by rule-based methods, to form image-instruction-action triplet sequences. Its core value lies in promoting the paradigm shift from imitation-based driving to instruction-driven driving, providing fine-grained supervisory signals for personalized autonomous driving systems, and supporting research on joint visual-language-action modeling.

提供机构：

清华大学; GigaAI

创建时间：

2026-03-27

原始信息汇总

Vega 数据集概述

数据集基本信息

数据集名称: Vega
核心功能: 一个视觉-语言-世界-动作模型，能够遵循自然语言指令生成多样化的驾驶动作和未来图像。
模型特点: 与传统仅能预测单一专家轨迹或遵循有限导航命令的驾驶模型不同，Vega 能够生成遵循多样化用户指令的多个规划轨迹和未来图像。
训练方法: 在训练阶段，利用世界建模来增强模型在复杂驾驶场景中的规划能力。
模型参数量: 14B

数据集构成与规模

训练集 (navtrain): 包含 85,109 个样本，提供基于规则的指令和视觉语言模型（VLM）生成的指令。
测试集 (navtest): 包含 12,146 个样本，提供基于规则的指令和视觉语言模型（VLM）生成的指令。
数据基础: 数据集基于 NAVSIM 构建。

性能表现

NAVSIM v2 基准测试: 在不使用任何额外性能增强技术的情况下，获得 86.9 EPDMS 分数。采用最佳N策略后，达到顶级性能。
NAVSIM v1 基准测试: 获得 87.9 PDMS 分数，与多模态 BEV 方法相当。采用最佳N策略后，提升至 89.8 PDMS。

数据与模型发布状态

预训练模型权重: 即将在 Hugging Face Hub 发布。
指令标注数据 (navtrain & navtest): 即将在 Hugging Face Hub 发布。
指令生成与数据处理脚本: 即将发布。

相关资源

论文地址: https://arxiv.org/abs/2603.25741
项目主页: https://zuosc19.github.io/Vega/
基础模型: 训练基于 ByteDance-Seed/BAGEL-7B-MoT (https://huggingface.co/ByteDance-Seed/BAGEL-7B-MoT)。
代码库: https://github.com/wzzheng/Vega.git
依赖数据集: NAVSIM (https://github.com/autonomousvision/navsim/blob/main/docs/install.md)

搜集汇总

数据集介绍

构建方式

在自动驾驶领域，从模仿驾驶向指令驾驶的范式转变需要高质量的数据支撑。InstructScene数据集的构建基于NAVSIM仿真平台，通过全自动的两阶段标注流程生成了约10万个指令标注场景。第一阶段利用Qwen2.5-VL-72B-Instruct模型对连续14帧的前视相机图像进行场景理解，描述交通参与者和静态物体，并分析未来10帧中车辆的驾驶行为与交互。第二阶段结合视觉输入与第一阶段生成的场景描述，引导模型生成简洁的驾驶指令，以反映当前时间步的驾驶意图。为弥补视觉语言模型在感知自车运动方面的不足，研究团队还基于速度、加速度和转向率阈值生成了补充性的规则指令，最终形成了包含图像、指令和动作三元组的大规模数据集。

使用方法

该数据集主要用于训练和评估能够遵循自然语言指令的视觉-语言-动作模型。在使用时，模型以前序图像观测、历史动作以及当前文本指令作为输入，目标是预测出符合指令意图的当前驾驶动作。研究论文中提出的Vega模型采用了统一的生成与规划框架，不仅进行动作规划，还联合进行未来图像生成，利用像素级的密集监督信号来强化模型对指令、动作与视觉结果之间因果关系的理解。数据集支撑了从端到端的指令条件轨迹预测到多模态联合建模等多种研究方法，为探索个性化、可解释的自动驾驶决策提供了关键的数据资源。

背景与挑战

背景概述

InstructScene数据集由清华大学与GigaAI的研究团队于2026年构建，旨在推动自动驾驶从模仿驾驶向指令驾驶的范式转变。该数据集基于NAVSIM平台，包含了约10万个经过自然语言指令标注的驾驶场景及其对应轨迹。其核心研究问题是解决现有视觉-语言-动作模型在遵循多样化、开放式用户指令方面的不足，通过提供大规模、高质量的指令-动作配对数据，为开发个性化、可解释的自动驾驶系统奠定了关键基础，显著提升了模型对复杂驾驶意图的理解与执行能力。

当前挑战

该数据集致力于解决指令驱动自动驾驶领域的核心挑战，即如何让智能体准确理解并执行开放域的自然语言指令，而非局限于有限的导航命令。在构建过程中，主要挑战在于生成高质量、多样化的指令标注。尽管利用大型视觉语言模型进行自动化标注，但其对自车运动的感知仍存在偏差，需结合基于规则的补充方法以确保指令的准确性与多样性。此外，如何有效弥合高维视觉-语言输入与低维动作预测之间的信息鸿沟，使模型能够学习从高级指令到低级动作的可泛化映射，亦是数据集支撑模型训练时面临的关键难题。

常用场景

经典使用场景

在自动驾驶研究领域，InstructScene数据集为指令跟随型驾驶模型的训练与评估提供了核心支撑。该数据集最经典的使用场景是训练和验证能够理解并执行多样化自然语言指令的端到端驾驶模型，例如Vega模型。研究者利用其约10万条带有指令标注的场景数据，驱动模型学习从“加速超车以赶上绿灯”到“靠边停车”等开放式指令到具体轨迹规划的映射，从而推动自动驾驶从单纯的模仿驾驶向个性化、可交互的指令驾驶范式转变。

解决学术问题

该数据集主要解决了自动驾驶研究中指令跟随能力缺失的关键学术问题。传统视觉-语言-动作模型多将语言模态局限于场景描述或决策推理，缺乏遵循灵活、开放式用户指令进行个性化规划的能力。InstructScene通过提供大规模、高质量的指令-轨迹配对数据，为模型学习高维视觉语言输入与低维动作输出之间的可泛化映射关系奠定了数据基础，从而弥合了指令理解与轨迹执行之间的语义鸿沟，推动了更具交互性和适应性的智能驾驶系统的发展。

实际应用

在实际应用层面，基于InstructScene训练的模型为下一代智能驾驶系统赋予了自然的人机交互接口。这使得车辆能够响应用户实时的、个性化的驾驶指令，例如在紧急情况下执行“立即减速靠边”或在效率优先时“跟随前车快速通过路口”。这种能力不仅提升了乘车的舒适性与可控性，也为共享出行、物流运输等场景提供了更灵活、智能的调度与规划方案，是迈向高度个性化与情境感知自动驾驶的关键一步。

数据集最近研究