RoboSense Track 1 Drive with Language Dataset

github2025-06-25 更新2025-06-26 收录

下载链接：

https://github.com/robosense2025/track1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于DriveLM和DriveBench基准，包括多视角摄像头输入、自然语言指令和对象定位。数据集进一步分为感知、预测和规划任务，并包含不同类型的问题。

This dataset is based on the DriveLM and DriveBench benchmarks, and includes multi-view camera inputs, natural language instructions, and object localization. It is further divided into perception, prediction, and planning tasks, and covers various types of questions.

创建时间：

2025-06-09

原始信息汇总

RoboSense Track 1: Driving with Language 数据集概述

数据集简介

名称: RoboSense Track 1 Drive with Language Dataset
基础基准: 基于DriveLM和DriveBench基准
目标: 评估视觉语言模型(VLMs)在复杂城市环境中回答高级驾驶问题的能力

数据内容

输入数据:
- 多视角摄像头输入（来自nuScenes数据集）
- 自然语言指令（包含感知、预测和规划任务）
- 物体定位（通过场景中物体的中心点表示）

数据集统计

驾驶任务	问题数量	问题类型
感知	361	多选题(MCQs)、视觉问答(VQA)
预测	522	多选题(MCQs)
规划	513	视觉问答(VQA)

VQA问题子类型

VQAobj: 关于场景中物体的问题
VQAscene: 关于整体场景的问题

基准性能

使用Qwen2.5-VL-7B-Instruct作为基准模型：

任务	问题类型	准确率(%)
感知	MCQ	75.5
	VQA<sub>obj</sub>	29.2
	VQA<sub>scene</sub>	22.2
预测	MCQ	59.2
规划	VQA<sub>obj</sub>	29.6
	VQA<sub>scene</sub>	31.2
平均	所有类型	42.5

评估指标

准确率(Accuracy): 用于所有多选题(MCQs)
LLM评分(LLM Score): 用于所有视觉问答(VQA)，使用LLM根据详细评分标准对答案进行评分

引用信息

bibtex @article{xie2025drivebench, title = {Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives}, author = {Xie, Shaoyuan and Kong, Lingdong and Dong, Yuhao and Sima, Chonghao and Zhang, Wenwei and Chen, Qi Alfred and Liu, Ziwei and Pan, Liang}, journal = {arXiv preprint arXiv:2501.04003}, year = {2025} }

bibtex @inproceedings{sima2024drivelm, title = {DriveLM: Driving with graph visual question answering}, author = {Sima, Chonghao and Renz, Katrin and Chitta, Kashyap and Chen, Li and Zhang, Hanxue and Xie, Chengen and Bei{ss}wenger, Jens and Luo, Ping and Geiger, Andreas and Li, Hongyang}, booktitle = {European Conference on Computer Vision}, pages = {256-274}, year = {2024}, organization = {Springer} }

搜集汇总

数据集介绍

构建方式

RoboSense Track 1 Drive with Language Dataset的构建基于DriveLM和DriveBench基准，整合了多视角摄像头输入与自然语言指令。数据集通过nuScenes数据集获取多视角摄像头输入，并结合涵盖感知、预测和规划的自然语言指令，形成丰富的交互式驾驶场景。每个对象通过场景中的中心点进行定位，确保了数据的精确性和一致性。数据集进一步区分了视觉问答（VQA）问题类型，包括针对特定对象的VQAobj和针对整体场景的VQAscene，为多模态学习提供了结构化支持。

特点

该数据集的特点在于其多模态融合与任务多样性。数据集不仅包含多视角摄像头输入，还整合了自然语言指令，涵盖了感知、预测和规划三大核心驾驶任务。数据集中包含多种问题类型，如多选题（MCQ）和视觉问答（VQA），进一步细分为针对对象和场景的问答，为模型提供了丰富的学习素材。此外，数据集还支持时间帧的扩展，通过添加时间维度增强了数据的动态性，为复杂驾驶场景的模拟与学习提供了可能。

使用方法

数据集的使用方法包括数据格式转换、模型部署与评估三个主要步骤。用户需通过convert_format.py脚本将原始数据转换为指定格式，并可选择添加时间帧以增强数据动态性。随后，利用vLLM工具部署模型，并通过inference.sh脚本进行推理与评估。数据集的评估指标包括准确率（Accuracy）和LLM评分（LLM Score），分别适用于多选题和视觉问答任务。用户还可通过提交代码、模型权重和技术报告参与挑战，进一步验证模型的性能与可复现性。

背景与挑战

背景概述

RoboSense Track 1 Drive with Language Dataset是由RoboSense 2025挑战赛组织团队于2025年推出的多模态数据集，旨在推动自动驾驶领域自然语言理解与决策规划的交叉研究。该数据集基于DriveLM和DriveBench基准构建，融合了多视角摄像头输入与自然语言指令，核心研究问题聚焦于如何让自动驾驶系统准确解析人类语言指令并转化为安全的驾驶行为。作为IROS 2025官方竞赛数据，其创新性地将视觉问答（VQA）与轨迹预测、路径规划等传统自动驾驶任务结合，为多模态大模型在智能驾驶中的应用提供了标准化评估框架。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需解决自然语言指令的模糊性解析、动态场景下的实时决策鲁棒性，以及视觉退化条件下的语义理解等核心难题；在构建过程中，如何平衡多任务标注的复杂性（涵盖感知、预测、规划三类任务）、确保跨模态数据对齐的精确性，以及处理nuScenes原始数据中的视角切换与遮挡问题成为关键障碍。基线模型Qwen2.5-VL-7B-Instruct在VQA任务上29.2%的准确率表明，当前模型对物体级视觉语义的理解仍存在显著提升空间。

常用场景

经典使用场景

在自动驾驶领域，RoboSense Track 1 Drive with Language Dataset为研究者提供了一个多模态交互平台，用于探索自然语言指令与驾驶行为之间的复杂映射关系。该数据集通过融合多视角摄像头输入与自然语言指令，模拟了真实驾驶场景中人机交互的典型情境。其经典使用场景包括训练视觉语言模型理解'左转避开行人'等复合指令，并在动态环境中执行相应驾驶操作，为自动驾驶系统的智能决策提供数据支撑。

衍生相关工作

该数据集已催生多项代表性研究，包括DriveLM提出的图结构视觉问答框架，以及DriveBench建立的可靠性评估体系。相关论文发表于ECCV和arXiv等顶级平台，推动了多模态推理在自动驾驶中的应用。基于该数据集开发的Qwen2.5-VL-7B等基线模型，为后续研究提供了重要参照，促进了视觉语言模型在动态环境理解方面的技术迭代。

数据集最近研究