five

RoboSense Track 1 Drive with Language Dataset

收藏
github2025-06-25 更新2025-06-26 收录
下载链接:
https://github.com/robosense2025/track1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集基于DriveLM和DriveBench基准,包括多视角摄像头输入、自然语言指令和对象定位。数据集进一步分为感知、预测和规划任务,并包含不同类型的问题。

This dataset is based on the DriveLM and DriveBench benchmarks, and includes multi-view camera inputs, natural language instructions, and object localization. It is further divided into perception, prediction, and planning tasks, and covers various types of questions.
创建时间:
2025-06-09
原始信息汇总

RoboSense Track 1: Driving with Language 数据集概述

数据集简介

  • 名称: RoboSense Track 1 Drive with Language Dataset
  • 基础基准: 基于DriveLM和DriveBench基准
  • 目标: 评估视觉语言模型(VLMs)在复杂城市环境中回答高级驾驶问题的能力

数据内容

  • 输入数据:
    • 多视角摄像头输入(来自nuScenes数据集)
    • 自然语言指令(包含感知、预测和规划任务)
    • 物体定位(通过场景中物体的中心点表示)

数据集统计

驾驶任务 问题数量 问题类型
感知 361 多选题(MCQs)、视觉问答(VQA)
预测 522 多选题(MCQs)
规划 513 视觉问答(VQA)

VQA问题子类型

  • VQA<sub>obj</sub>: 关于场景中物体的问题
  • VQA<sub>scene</sub>: 关于整体场景的问题

基准性能

使用Qwen2.5-VL-7B-Instruct作为基准模型:

任务 问题类型 准确率(%)
感知 MCQ 75.5
VQA<sub>obj</sub> 29.2
VQA<sub>scene</sub> 22.2
预测 MCQ 59.2
规划 VQA<sub>obj</sub> 29.6
VQA<sub>scene</sub> 31.2
平均 所有类型 42.5

评估指标

  • 准确率(Accuracy): 用于所有多选题(MCQs)
  • LLM评分(LLM Score): 用于所有视觉问答(VQA),使用LLM根据详细评分标准对答案进行评分

相关资源

  • 数据集地址: https://huggingface.co/datasets/robosense/datasets/tree/main/track1-driving-with-language
  • 基准模型: https://huggingface.co/Qwen/Qwen2.5-VL-7B-Instruct
  • 相关论文:
    • https://arxiv.org/abs/2501.04003
    • DriveLM: Driving with graph visual question answering (ECCV 2024)

引用信息

bibtex @article{xie2025drivebench, title = {Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives}, author = {Xie, Shaoyuan and Kong, Lingdong and Dong, Yuhao and Sima, Chonghao and Zhang, Wenwei and Chen, Qi Alfred and Liu, Ziwei and Pan, Liang}, journal = {arXiv preprint arXiv:2501.04003}, year = {2025} }

bibtex @inproceedings{sima2024drivelm, title = {DriveLM: Driving with graph visual question answering}, author = {Sima, Chonghao and Renz, Katrin and Chitta, Kashyap and Chen, Li and Zhang, Hanxue and Xie, Chengen and Bei{ss}wenger, Jens and Luo, Ping and Geiger, Andreas and Li, Hongyang}, booktitle = {European Conference on Computer Vision}, pages = {256-274}, year = {2024}, organization = {Springer} }

搜集汇总
数据集介绍
main_image_url
构建方式
RoboSense Track 1 Drive with Language Dataset的构建基于DriveLM和DriveBench基准,整合了多视角摄像头输入与自然语言指令。数据集通过nuScenes数据集获取多视角摄像头输入,并结合涵盖感知、预测和规划的自然语言指令,形成丰富的交互式驾驶场景。每个对象通过场景中的中心点进行定位,确保了数据的精确性和一致性。数据集进一步区分了视觉问答(VQA)问题类型,包括针对特定对象的VQA<sub>obj</sub>和针对整体场景的VQA<sub>scene</sub>,为多模态学习提供了结构化支持。
特点
该数据集的特点在于其多模态融合与任务多样性。数据集不仅包含多视角摄像头输入,还整合了自然语言指令,涵盖了感知、预测和规划三大核心驾驶任务。数据集中包含多种问题类型,如多选题(MCQ)和视觉问答(VQA),进一步细分为针对对象和场景的问答,为模型提供了丰富的学习素材。此外,数据集还支持时间帧的扩展,通过添加时间维度增强了数据的动态性,为复杂驾驶场景的模拟与学习提供了可能。
使用方法
数据集的使用方法包括数据格式转换、模型部署与评估三个主要步骤。用户需通过convert_format.py脚本将原始数据转换为指定格式,并可选择添加时间帧以增强数据动态性。随后,利用vLLM工具部署模型,并通过inference.sh脚本进行推理与评估。数据集的评估指标包括准确率(Accuracy)和LLM评分(LLM Score),分别适用于多选题和视觉问答任务。用户还可通过提交代码、模型权重和技术报告参与挑战,进一步验证模型的性能与可复现性。
背景与挑战
背景概述
RoboSense Track 1 Drive with Language Dataset是由RoboSense 2025挑战赛组织团队于2025年推出的多模态数据集,旨在推动自动驾驶领域自然语言理解与决策规划的交叉研究。该数据集基于DriveLM和DriveBench基准构建,融合了多视角摄像头输入与自然语言指令,核心研究问题聚焦于如何让自动驾驶系统准确解析人类语言指令并转化为安全的驾驶行为。作为IROS 2025官方竞赛数据,其创新性地将视觉问答(VQA)与轨迹预测、路径规划等传统自动驾驶任务结合,为多模态大模型在智能驾驶中的应用提供了标准化评估框架。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,需解决自然语言指令的模糊性解析、动态场景下的实时决策鲁棒性,以及视觉退化条件下的语义理解等核心难题;在构建过程中,如何平衡多任务标注的复杂性(涵盖感知、预测、规划三类任务)、确保跨模态数据对齐的精确性,以及处理nuScenes原始数据中的视角切换与遮挡问题成为关键障碍。基线模型Qwen2.5-VL-7B-Instruct在VQA任务上29.2%的准确率表明,当前模型对物体级视觉语义的理解仍存在显著提升空间。
常用场景
经典使用场景
在自动驾驶领域,RoboSense Track 1 Drive with Language Dataset为研究者提供了一个多模态交互平台,用于探索自然语言指令与驾驶行为之间的复杂映射关系。该数据集通过融合多视角摄像头输入与自然语言指令,模拟了真实驾驶场景中人机交互的典型情境。其经典使用场景包括训练视觉语言模型理解'左转避开行人'等复合指令,并在动态环境中执行相应驾驶操作,为自动驾驶系统的智能决策提供数据支撑。
衍生相关工作
该数据集已催生多项代表性研究,包括DriveLM提出的图结构视觉问答框架,以及DriveBench建立的可靠性评估体系。相关论文发表于ECCV和arXiv等顶级平台,推动了多模态推理在自动驾驶中的应用。基于该数据集开发的Qwen2.5-VL-7B等基线模型,为后续研究提供了重要参照,促进了视觉语言模型在动态环境理解方面的技术迭代。
数据集最近研究
最新研究方向
随着自动驾驶技术的快速发展,RoboSense Track 1 Drive with Language Dataset在自然语言理解与自动驾驶决策的融合领域展现出显著的前沿性。该数据集聚焦于多视角摄像头输入与自然语言指令的结合,旨在推动视觉语言模型(VLMs)在复杂驾驶场景中的应用。当前研究热点集中在提升模型在感知、预测和规划任务中的准确性与鲁棒性,特别是在视觉退化条件下的表现。这一方向不仅呼应了自动驾驶系统对安全性和可靠性的迫切需求,也为多模态人工智能技术在真实世界应用中的落地提供了重要参考。相关成果将于IROS 2025会议上展示,标志着该领域正迈向更成熟的阶段。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作