Box-QAymo
收藏arXiv2025-07-01 更新2025-07-04 收录
下载链接:
https://djamahl99.github.io/qaymo-pages/
下载链接
链接失效反馈官方服务:
资源简介:
Box-QAymo数据集是一个面向自动驾驶的视觉问答数据集,旨在评估和微调视觉语言模型在用户指定对象上的时空推理能力。该数据集包含1,662个二元问答对,5,403个属性问答对和13,714个运动问答对。数据集的建设过程包括三个阶段:增强对象标注、基于对象特征和时态动态的框引用视觉问答数据集生成,以及问答分布和难度控制的采样和平衡策略。数据集支持真实世界的感知约束和丰富的语义注释,为开发更鲁棒、可解释的自动驾驶系统提供了基础。
提供机构:
昆士兰大学
创建时间:
2025-07-01
原始信息汇总
Box-QAymo: Box-Referring VQA Dataset for Autonomous Driving
数据集概述
- 名称: Box-QAymo
- 类型: 自动驾驶领域的视觉问答(VQA)数据集
- 主要特点: 通过边界框标注实现用户指定对象的空间和时间推理
- 应用场景: 评估和微调视觉语言模型(VLMs)在复杂驾驶场景中的表现
核心贡献
- 提出分层评估协议:
- 基础能力测试(二元问题)
- 属性预测(框标注对象)
- 运动理解(目标实例)
- 时空推理(跨帧对象动态)
数据集统计
- 总问题数: 20,779
- 二元问题: 1,662
- 属性问题: 5,403
- 运动问题: 13,714
- 场景数: 202
- 标注对象比例: 50%
问题类别
二元问题
- 运动状态: "是否有静止车辆?"
- 方向判断: "是否有车辆朝向摄像头移动?"
属性问题
- 细粒度分类: "红色框中的物体是什么类型?"
- 颜色识别: "红色高亮物体是什么颜色?"
- 朝向判断: "红色框中的物体朝向哪个方向?"
运动问题
- 速度评估: "蓝色轿车移动速度多快?"
- 运动方向: "红色框中的物体向哪个方向移动?"
- 相对运动分析: "绿色皮卡是否比本车行驶更快?"
- 轨迹分析: "本车和卡车是否会碰撞?"
技术支持
核心组件
- 数据处理: Waymo数据集提取和预处理
- 问题生成: 分层提示生成器
- 模型评估: 支持多种VLMs和评估指标
- 答案处理: 支持多选、文本和边界框答案
支持模型
- VLMs: LLaVA, Qwen-VL, SENNA
- 评估指标: F1, Precision, Recall
关键发现
- 性能随问题复杂度下降: 二元(66.1%) > 运动(37.6%) > 属性(18.3%)
- 边界框标注平均提升Qwen-VL模型1.39% F1分数
- 当前VLMs在短期时间整合方面表现欠佳
- 领域专用模型(Senna)表现出脆弱性
引用格式
bibtex @article{etchegaray2024boxqaymo, title={Box-QAymo: Box-Referring VQA Dataset for Autonomous Driving}, author={Etchegaray, Djamahl, Fu, Yuxia, Huang, Zi and Luo, Yadan}, journal={arXiv preprint}, year={2025} }
搜集汇总
数据集介绍
构建方式
Box-QAymo数据集的构建采用了三阶段方法论,首先基于Waymo开放数据集的三维标注框架,通过众包平台对50%的可见物体进行细粒度语义标注,包括车辆颜色等视觉属性。其次采用层次化问题生成策略,从基础二元存在性问题逐步过渡到基于边界框的实例属性识别,最终构建涉及多帧时序推理的运动轨迹问题。为确保数据质量,研究团队实施了负样本采样、时序一致性校验以及难度分层平衡机制,最终形成包含20,779个QA对的基准数据集。
特点
该数据集的核心特征体现在空间-时间双维度评估体系上,通过红色边界框的视觉标记机制实现精准的实例指代,支持从静态属性识别到动态轨迹推理的渐进式评估。问题类型覆盖12个语义子类,其中运动相关问题占比达63.4%,充分反映自动驾驶场景的动态特性。数据分布经过严格调控,包含18.3%的困难样本,确保对模型时空推理能力的全面检验。独特的层级评估架构可精确诊断模型在基础感知、属性理解及时序推理等不同能力维度的表现。
使用方法
使用Box-QAymo进行模型评估时,建议采用分级测试流程:首先通过二元问题验证基础视觉对齐能力,继而评估边界框指代下的细粒度分类表现,最终测试多帧运动推理性能。针对时序任务,可配置单帧或双帧输入模式以分析模型的时间建模能力。实验表明,模型输出需经过多级解析处理(包括文本归一化、精确选项匹配等),并推荐采用LoRA等参数高效微调方法进行领域适配。数据集的层级设计允许研究者定位模型薄弱环节,特别适合诊断视觉-语言模型在真实驾驶场景中的指代理解和时空推理缺陷。
背景与挑战
背景概述
Box-QAymo是由澳大利亚昆士兰大学的Djamahl Etchegaray、Yuxia Fu、Zi Huang和Yadan Luo等研究人员于2025年提出的一个专注于自动驾驶场景中视觉语言模型(VLMs)评估的数据集。该数据集旨在解决现有自动驾驶视觉问答数据集在局部化用户驱动查询评估上的不足,通过引入边界框参考机制,使用户能够直观地指定查询对象,从而评估模型在空间和时间推理上的能力。Box-QAymo基于Waymo Open Dataset(WOD)构建,通过众包标注丰富了细粒度语义标签,支持从基本感知到复杂时空推理的多层次评估。其核心研究问题是提升自动驾驶系统中人机交互的透明性和可解释性,填补了现有数据集在语义多样性和时空推理评估上的空白。
当前挑战
Box-QAymo面临的挑战主要包括两方面:领域问题挑战和构建过程挑战。在领域问题方面,自动驾驶中的视觉语言模型需要处理复杂场景下的局部化查询,包括细粒度对象属性识别(如颜色、类型)、运动状态理解(如速度、方向)以及多对象时空关系推理(如轨迹分析、路径冲突检测)。现有模型在这些任务上表现不佳,尤其是在时空推理和细粒度语义理解上存在显著差距。在构建过程中,挑战包括:1)众包标注的质量控制,需确保细粒度语义标签的准确性和一致性;2)时空一致性问题,需通过插值算法和多重验证保证轨迹数据的逻辑合理性;3)数据平衡性设计,需通过负采样和难度分层策略避免模型过拟合简单样本。这些挑战使得Box-QAymo成为一个具有高复杂性和现实意义的基准测试平台。
常用场景
经典使用场景
Box-QAymo数据集在自动驾驶领域中被广泛用于评估和微调视觉语言模型(VLMs)的空间和时间推理能力。通过用户绘制的边界框,该数据集提供了一个直观且高效的接口,使研究人员能够针对复杂场景中的特定对象进行聚焦查询。其层次化评估协议从基本的二元问题逐步深入到属性预测、运动理解和对象间动态时空推理,为模型能力的全面评估提供了系统化的框架。
解决学术问题
Box-QAymo数据集解决了自动驾驶研究中视觉语言模型在局部化用户驱动查询方面的评估空白。传统数据集多集中于全场景描述或路径点预测,而Box-QAymo通过引入边界框引用机制,使模型能够针对用户指定的对象进行细粒度推理。该数据集进一步填补了现有数据在语义多样性和时空推理能力评估上的不足,为开发更具解释性和鲁棒性的自动驾驶系统提供了关键支持。
衍生相关工作
Box-QAymo的推出催生了一系列围绕自动驾驶视觉语言交互的研究工作。例如,Drive-LM和Talk2Drive等模型借鉴了其边界框引用机制,进一步探索多模态推理与用户意图的融合。同时,该数据集启发了LINGO和EMMA等商业模型在语义丰富性和时空推理能力上的优化,推动了自动驾驶领域人机交互技术的标准化进程。
以上内容由遇见数据集搜集并总结生成



