STRIDE-QA

github2025-08-20 更新2025-08-22 收录

下载链接：

https://github.com/turingmotors/STRIDE-QA-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

STRIDE-QA是一个大规模视觉问答数据集，专注于城市驾驶场景中的自我中心时空推理，包含基准评估套件

STRIDE-QA is a large-scale visual question answering (VQA) dataset focused on egocentric spatio-temporal reasoning in urban driving scenarios, and includes a benchmark evaluation suite.

创建时间：

2025-08-15

原始信息汇总

STRIDE-QA 数据集概述

数据集简介

STRIDE-QA 是一个大规模视觉问答（VQA）数据集，专注于城市驾驶场景中以自我为中心（ego-centric）的时空推理。该数据集附带一个用于评估的基准套件。

核心特性

研究领域：计算机视觉、自动驾驶
主要任务：视觉问答（VQA）
场景类型：城市驾驶场景
推理类型：时空推理
视角特性：以自我为中心（ego-centric）

基准套件

提供 STRIDE-QA Bench 作为官方评估框架，用于评估视觉语言模型（VLMs）在城市驾驶环境中的时空推理能力。

基准组件

推理运行器
评估脚本
可视化工具

数据集位置

基准工具包：benchmarks/STRIDE-QA-Bench
基准数据集：https://huggingface.co/datasets/turing-motors/STRIDE-QA-Bench

发布时间线

2025-08-22：STRIDE-QA Bench 代码和数据集发布
2025-08-19：arXiv 论文发布
2025-07-13：短文被 ICCV End-to-End 3D Learning Workshop 接受

许可信息

本项目采用 CC BY-NC-SA 4.0 许可证发布。

致谢

本项目基于新能源产业技术综合开发机构（NEDO）资助的 JPNP20017 项目成果。

引用方式

bibtex @misc{ishihara2025strideqa, title={STRIDE-QA: Visual Question Answering Dataset for Spatiotemporal Reasoning in Urban Driving Scenes}, author={Keishi Ishihara and Kento Sasaki and Tsubasa Takahashi and Daiki Shiono and Yu Yamaguchi}, year={2025}, eprint={2508.10427}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.10427}, }

搜集汇总

数据集介绍

构建方式

在自动驾驶领域，STRIDE-QA数据集的构建依托于大规模真实城市驾驶场景的视觉数据采集。研究团队通过车载传感器系统捕获第一视角的连续视频流，并在此基础上设计了一套精细的时空推理问题生成机制。每个问题均与特定的时空事件相关联，确保问题既涵盖空间关系解析，又包含时间动态推理，从而构建出一个覆盖多维度推理任务的高质量问答对集合。

使用方法

使用者可通过Hugging Face平台获取STRIDE-QA基准数据集，并利用其配套工具包进行模型推理与评估。该工具包提供标准化的数据加载接口、评估脚本及可视化组件，支持研究人员对视觉语言模型在时空推理任务上的性能进行定量分析与比较。用户可依据提供的示例代码快速开展实验，推动自动驾驶场景理解技术的前沿探索。

背景与挑战

背景概述

自动驾驶领域对视觉问答系统的需求日益增长，STRIDE-QA数据集应运而生。该数据集由Turing Motors团队于2025年创建，专注于城市驾驶场景中的自我中心时空推理。数据集基于日本新能源产业技术综合开发机构（NEDO）资助项目JPNP20017的成果开发，旨在推动视觉语言模型在复杂动态环境中的认知能力研究。其创新性体现在将时空推理与视觉问答相结合，为自动驾驶系统的情境理解提供了重要基准。

当前挑战

STRIDE-QA面临的核心挑战在于解决动态场景中的多模态时空推理问题，包括车辆运动轨迹预测、交通参与者行为理解和环境状态演变分析。数据集构建过程中需克服高质量时空标注的复杂性，包括精确的时间同步、空间关系标注和事件逻辑链构建。同时，需要确保驾驶场景的多样性和真实性，涵盖各种光照条件、交通密度和城市道路拓扑结构，这对数据采集和标注的一致性提出了极高要求。

常用场景

经典使用场景

在自动驾驶研究领域，STRIDE-QA数据集为视觉问答任务提供了以自我为中心的时空推理基准。该数据集通过模拟城市驾驶场景中的复杂交互，使研究者能够评估模型对动态事件的时序理解和空间关系推断能力，例如车辆变道意图识别或行人轨迹预测，为多模态推理建立了标准化测试环境。

解决学术问题

该数据集有效解决了自动驾驶中视觉语言模型对时空连续性理解的学术挑战。通过提供大规模标注的驾驶场景问答对，它填补了传统静态视觉推理与动态时序分析之间的鸿沟，促进了模型在因果推理、事件预测和场景演化分析方面的突破，为端到端三维学习提供了关键数据支撑。

实际应用

STRIDE-QA的实际应用价值体现在智能交通系统的开发中。其数据可用于训练车载智能系统实时解析复杂交通场景，例如识别突发危险事件、预测交通参与者行为轨迹，以及生成自然语言的场景描述，显著提升自动驾驶车辆的环境感知能力和人机交互可靠性。

数据集最近研究