STRIDE-QA
收藏arXiv2025-08-14 更新2025-11-28 收录
下载链接:
https://turingmotors.github.io/stride-qa/
下载链接
链接失效反馈官方服务:
资源简介:
STRIDE-QA是一个大规模视觉问答(VQA)数据集,用于物理场景下的自主驾驶中的时空推理。该数据集包含来自东京100小时的多传感器驾驶数据,捕捉了交通拥堵、施工区域和行人密集的交叉路口等多样性和挑战性条件。STRIDE-QA是城市驾驶中时空推理的最大VQA数据集,提供超过285K帧的16M QA对。该数据集通过密集的自动生成注释,包括3D边界框、分割掩码和多对象跟踪,通过三个新颖的QA任务支持对象中心、自我中心和时空推理。这些任务要求空间定位和短期预测,为下游规划和决策中的安全关键城市环境提供了系统性的测量。通过将每个QA对建立在物理和时序一致的注释中,STRIDE-QA为在现实世界自动驾驶中进行训练和基准测试的VLMs提供了全面的基础。
STRIDE-QA is a large-scale visual question answering (VQA) dataset designed for spatio-temporal reasoning in autonomous driving in real-world physical scenarios. This dataset comprises 100 hours of multi-sensor driving data acquired in Tokyo, capturing diverse and challenging driving scenarios including traffic congestion, construction zones, and pedestrian-dense intersections. STRIDE-QA represents the largest VQA dataset focused on spatio-temporal reasoning for urban autonomous driving, with 16 million QA pairs derived from over 285,000 frames. Equipped with dense automatically generated annotations including 3D bounding boxes, segmentation masks, and multi-object tracking, the dataset supports three novel QA tasks that enable object-centric, ego-centric, and spatio-temporal reasoning capabilities. These tasks require spatial localization and short-term prediction, providing systematic evaluation metrics for safety-critical urban environments in downstream planning and decision-making workflows. By anchoring each QA pair to physically and temporally consistent annotations, STRIDE-QA offers a comprehensive foundation for training and benchmarking vision-language models (VLMs) in real-world autonomous driving applications.
提供机构:
图灵公司
创建时间:
2025-08-14
搜集汇总
数据集介绍

构建方式
STRIDE-QA基于在东京城区超过100小时的多传感器驾驶数据构建,融合了64线激光雷达与六台覆盖360°视野的相机。数据采集后,采用全模块化自动标注流水线进行处理:首先以1Hz频率采样关键帧,随后通过BEVFusion进行高精度3D目标检测,并借助PubTracker实现跨帧的多目标跟踪。流水线进一步利用SAM 2.1生成语义分割掩码,并依据交并比、覆盖率等规则进行可见性过滤,以剔除不可靠的检测结果。最终,基于提取的物理属性(如距离、朝向和速度),通过模板自动生成逾1600万对涵盖物体中心、自车中心及时空推理三类问答对。
特点
该数据集规模宏大,包含28.5万帧与448K个独特物体对,是城市驾驶场景中最大的时空推理视觉问答数据集。其核心特色在于同时支持物体中心与自车中心的空间推理,并创新性地引入自车中心的时空推理任务,要求模型预测未来1至3秒内目标物体的距离、朝向及速度。所有问答均基于厘米级精度的3D标注和时序一致的多目标轨迹,实现了物理属性与视觉证据的紧密对齐。评测发现,现有通用视觉语言模型在该数据集上表现极差,而经微调的模型在空间定位成功率上提升至96%。
使用方法
数据集可直接用于视觉语言模型的监督训练与评估。训练时,模型输入为前视相机在-1.5至0秒内的四帧RGB图像,并辅以Set-of-Mark方法生成的区域掩码。模型需输出目标物体的距离、朝向和速度等精确数值。评估采用定位成功率、平均定位成功率及时间定位一致性等指标,其中定位成功要求距离误差小于25%且角度误差小于10°。数据集的评价集依据动态场景类型(如超车、对向通行)进行组织,并特别标注了目标物体是否移出视野,为分析模型在复杂交通情境下的预测一致性提供了严谨的框架。
背景与挑战
背景概述
STRIDE-QA(SpatioTemporal Reasoning In Driving Scenarios for Ego-centric Visual Question Answering)是由日本Turing Inc.联合筑波大学与东北大学的研究团队于2025年推出的大规模视觉问答数据集。该数据集旨在解决自动驾驶场景中视觉语言模型(VLM)在时空推理方面的根本局限——现有模型多基于静态网页图像-文本对训练,缺乏对动态交通场景中细粒度空间关系与时间演变的精确理解。研究团队在东京采集了超过100小时的多传感器驾驶数据,涵盖拥堵路段、施工区域及行人密集交叉口等复杂城市环境,构建了包含28.5万帧、1600万问答对的高质量数据集,显著超越了nuScenes-QA、TUMTraffic-VideoQA等既有基准,为自动驾驶系统实现物理世界感知与决策提供了关键训练与评测平台。
当前挑战
STRIDE-QA所应对的核心挑战在于通用VLM在自动驾驶场景中时空推理能力的缺失。现有模型在测试中近乎无法完成时空一致性预测,其定位成功率与时间一致性得分趋近于零,显示出对运动物体轨迹建模与预测的本质困难。在数据集构建层面,研究团队也面临多重技术挑战:需融合多视角RGB图像与LiDAR点云实现高精度3D物体检测与跟踪,自动生成基于质心距离、方位角与速度的时空标注,并通过IoU阈值、覆盖率和分割掩膜质量三重过滤规则剔除噪声检测,从而在自动化流程中确保厘米级几何精度与跨帧实例一致性,最终构建起可规模化扩展的标注体系。
常用场景
经典使用场景
在城市自主驾驶场景中,STRIDE-QA最为经典的使用方式是作为视觉语言模型(VLM)的微调和评估基准,聚焦于时空推理能力的训练与度量。该数据集通过16百万组问答对、285千帧多传感器同步数据,支持三种核心推理任务:以物体为中心的空间推理、以自我车辆为中心的空间推理,以及以自我车辆为中心的时空推理。研究者可利用它系统性地提升模型在复杂交通场景下对动态目标的定位、距离估计和运动趋势预测能力。
衍生相关工作
STRIDE-QA的出现激发了多项衍生研究工作,包括多视角融合下的时空推理模型、基于短期运动一致性的VLM评价协议,以及跨数据集泛化能力分析。后续研究者借鉴其自动化标注流水线,将其扩展到其他城市驾驶数据集,并探索多模态输入(如LiDAR与环视相机)的融合策略。此外,基于STRIDE-QA定义的时间定位一致性(TLC)指标,已成为评估动态场景预测鲁棒性的重要基准,推动了自主驾驶VLM从单一帧理解向连续时空推理的演进。
数据集最近研究
最新研究方向
在自动驾驶领域,视觉-语言模型(VLM)的时空推理能力正成为研究前沿,而STRIDE-QA数据集的诞生恰逢其时。该数据集基于东京超过100小时的多传感器驾驶数据,构建了包含1600万问答对的大规模时空推理基准,覆盖了对象中心、自我中心空间及自我中心时空三类新颖的推理任务。前沿研究聚焦于利用该数据集弥补现有VLM在动态交通场景中时空定位与预测的短板,实验表明微调后的模型在空间定位成功率上提升至55%,时间预测一致性达到28%,相较于通用VLM接近零的基线表现有显著飞跃。这一成果不仅推动了VLM从静态图像理解向物理世界实时推理的转型,也为构建安全关键型自动驾驶系统中的可信视觉-语言智能奠定了坚实基础。
相关研究论文
- 1通过图灵公司 · 2025年
以上内容由遇见数据集搜集并总结生成



