V2X-QA
收藏github2026-04-06 更新2026-04-09 收录
下载链接:
https://github.com/junwei0001/V2X-QA
下载链接
链接失效反馈官方服务:
资源简介:
V2X-QA是一个真实世界的多视图自动驾驶视觉问答数据集和基准测试,建立在V2X-Seq-SPD之上。它支持在三种证据条件下的受控评估:车辆侧推理(VS)、基础设施侧推理(IS)以及两者视图的协同推理(CO)。
V2X-QA is a real-world multi-view autonomous driving visual question answering (VQA) dataset and benchmark built upon V2X-Seq-SPD. It supports controlled evaluations under three evidence conditions: vehicle-side reasoning (VS), infrastructure-side reasoning (IS), and collaborative reasoning (CO) leveraging the combined views of both sides.
创建时间:
2026-03-30
原始信息汇总
V2X-QA 数据集概述
数据集基本信息
- 数据集名称: V2X-QA
- 官方仓库地址: https://github.com/junwei0001/V2X-QA
- 核心内容: 一个用于自动驾驶的多视角视觉问答(VQA)数据集、基准测试和基线模型。
数据集与任务描述
- 数据基础: 基于 V2X-Seq-SPD 数据集构建的真实世界多视角自动驾驶VQA数据集。
- 评估视角: 支持在三种证据条件下的受控评估:
- VS: 车端推理。
- IS: 路端推理。
- CO: 融合车端和路端视图的协同推理。
- 任务范围: 包含十二个与视角对齐的任务,涵盖感知、预测以及在车端、路端和协同设置下的推理/规划。
数据集构成与获取
- 包含内容:
- V2X-QA 标注文件(
JSONL格式),存放于data/train/和data/test/目录。 - 数据集统计信息图表:
assets/dataset_statistics.png。 - 数据集概述图表:
assets/V2X-QA_overview.png。
- V2X-QA 标注文件(
- 不包含内容:
- 不重新分发原始的 V2X-Seq-SPD 车端和路端图像。
- 不包含上游基础模型(Qwen3-VL)的权重副本。
- 数据准备: 用户必须从官方 V2X-Seq / V2X-Seq-SPD 源单独下载原始图像,并放置于以下本地目录:
data/raw_external/V2X-Seq-SPD-vehicle-side-image/data/raw_external/V2X-Seq-SPD-infrastructure-side-image/
基线模型 V2X-MoE
- 模型基础: 基于 Qwen3-VL 的可复现基线模型。
- 核心设计: 采用显式的视角路由和三个针对特定视角的LoRA专家:
vs_expertis_expertco_expert
- 训练流程: 包含三个阶段:
- 第一阶段: 跨所有任务的联合多项选择问答训练。
- 第二阶段: 专注于协同推理的细化训练。
- 第三阶段: 专注于路端推理的细化训练。
- 模型管道图表:
assets/V2X-MoE_pipeline.png。
已发布的检查点
- 位置:
checkpoints/目录。 - 内容: 包含已发布的最终 V2X-MoE 适配器(LoRA权重)以及处理器/分词器文件,用于评估和复用。
vs_expert/is_expert/co_expert/chat_template.jinjaprocessor_config.jsontokenizer.jsontokenizer_config.json
相关论文
- 标题: V2X-QA: A Comprehensive Reasoning Dataset and Benchmark for Multimodal Large Language Models in Autonomous Driving Across Ego, Infrastructure, and Cooperative Views
- arXiv地址: https://arxiv.org/abs/2604.02710
- 引用BibTeX: bibtex @article{you2026v2xqa, title = {V2X-QA: A Comprehensive Reasoning Dataset and Benchmark for Multimodal Large Language Models in Autonomous Driving Across Ego, Infrastructure, and Cooperative Views}, author = {You, Junwei and Li, Pei and Jiang, Zhuoyu and Tang, Weizhe and Huang, Zilin and Gan, Rui and Liu, Jiaxi and Zhao, Yan and Chen, Sikai and Ran, Bin}, journal = {arXiv preprint arXiv:2604.02710}, year = {2026}, url = {https://arxiv.org/abs/2604.02710} }
许可与致谢
- 上游依赖: 本工作基于公开的上游资源构建,包括 V2X-Seq-SPD 和 Qwen3-VL。
- 用户责任: 用户必须遵守原始 V2X-Seq / V2X-Seq-SPD 数据集源和上游 Qwen3-VL 基础模型的许可和使用条款。
搜集汇总
数据集介绍

构建方式
在自动驾驶领域,多视角感知与推理能力的评估对智能系统至关重要。V2X-QA数据集基于真实世界的V2X-Seq-SPD数据构建,通过精心设计的标注流程,形成了涵盖车辆侧、基础设施侧及协同视角的视觉问答资源。其构建过程严格遵循多证据条件控制,确保数据在三种视角下均具备可评估性,同时依托结构化任务划分,将感知、预测与推理规划等十二类任务有机整合,为模型提供了层次分明的学习框架。
特点
该数据集的核心特点在于其多视角协同的评估体系,能够支持车辆侧、基础设施侧及两者融合的协同推理场景。数据覆盖了自动驾驶中的关键认知维度,包括环境感知、行为预测与决策规划,并通过任务对齐设计实现了视角间的逻辑连贯性。此外,数据集与V2X-MoE基准模型紧密耦合,提供了基于Qwen3-VL的专家路由机制,使得多视角知识能够通过专用LoRA适配器进行高效融合与调用。
使用方法
使用V2X-QA时,需首先从其官方源获取V2X-Seq-SPD的原始图像数据,并按照指定目录结构进行放置,以配合发布的JSONL标注文件。数据加载后,可通过提供的训练脚本分阶段进行模型优化,包括联合多选问答训练、协同视角精化及基础设施视角增强。评估阶段则利用预发布的适配器与配置文件,运行标准评估流程以衡量模型在多视角推理任务上的性能,确保实验的可复现性与结果的可比性。
背景与挑战
背景概述
随着车路协同自动驾驶技术的快速发展,多模态大语言模型在复杂交通场景中的推理能力成为研究焦点。V2X-QA数据集于2026年由研究团队基于V2X-Seq-SPD构建,旨在解决车路协同环境下多视角视觉问答的评估难题。该数据集创新性地设计了车辆视角、路侧视角及协同视角三种证据条件,覆盖感知、预测与规划推理等十二类任务,为自动驾驶系统的多模态认知能力提供了标准化测试基准。其构建不仅推动了车路协同感知理论的发展,更为多模态大语言模型在动态交通场景中的泛化性能评估奠定了数据基础。
当前挑战
在领域问题层面,V2X-QA需应对车路协同场景中多源异构数据的时空对齐难题,以及不同视角下语义理解的一致性与互补性挑战。多模态大语言模型需在动态环境中实现跨视角的协同推理,这对模型的场景理解与决策泛化能力提出了更高要求。在构建过程中,数据集面临原始图像数据受版权限制无法直接分发的困境,研究者必须通过复杂的文件路径映射实现数据关联。此外,多视角标注需要解决视角间信息冗余与缺失的平衡问题,而协同推理任务的构建还需克服车辆与基础设施视角间的语义鸿沟,这些因素共同增加了数据集的构建复杂度与使用门槛。
常用场景
经典使用场景
在自动驾驶领域,多模态视觉问答技术正成为评估智能系统环境理解能力的关键手段。V2X-QA数据集通过整合车辆侧、路侧基础设施侧及协同视角的多视图视觉数据,为研究者提供了一个经典的评估平台,用于测试多模态大语言模型在复杂驾驶场景下的感知与推理性能。该数据集支持在三种证据条件下的受控评估,涵盖了从单一视角到协同融合的完整推理链条,使得模型能够在模拟真实世界交互的环境中接受全面检验。
衍生相关工作
围绕V2X-QA数据集,研究者已衍生出一系列经典工作,其中最具代表性的是V2X-MoE基准模型。该模型基于Qwen3-VL架构,通过显式的视图路由机制与三个视角特定的LoRA专家模块,实现了多视图信息的有效融合与任务适配。此外,数据集的设计理念也启发了后续研究,如跨视图注意力机制优化、多模态提示学习策略以及协同推理的增量训练方法。这些工作共同推动了多模态自动驾驶问答系统向更高效、更鲁棒的方向演进。
数据集最近研究
最新研究方向
在自动驾驶领域,多模态大语言模型的推理能力正成为研究焦点。V2X-QA数据集通过整合车端、路端及协同视角,构建了真实世界的多视图视觉问答基准,为模型在复杂交通场景下的感知、预测与规划任务提供了系统评估框架。当前前沿研究集中于探索基于专家混合架构的视觉语言模型,如V2X-MoE基线所展示的显式视图路由与视角特定LoRA专家设计,旨在提升模型在异构视图下的推理泛化性与鲁棒性。这一方向与车路协同智能化发展趋势紧密相连,为自动驾驶系统的安全决策与跨域协同提供了关键数据支撑,推动了多模态交互技术在智能交通系统中的实际应用。
以上内容由遇见数据集搜集并总结生成



