STRIDE-QA-Dataset

Hugging Face2026-01-17 更新2026-01-18 收录

下载链接：

https://huggingface.co/datasets/turing-motors/STRIDE-QA-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

STRIDE-QA是一个用于城市驾驶场景中时空推理的视觉问答数据集。

创建时间：

2026-01-13

原始信息汇总

STRIDE-QA 数据集概述

数据集基本信息

数据集名称：STRIDE-QA Dataset
发布机构：Turing Motors
访问地址：https://huggingface.co/datasets/turing-motors/STRIDE-QA-Dataset

核心内容描述

STRIDE-QA 是一个用于城市驾驶场景中时空推理的视觉问答数据集。

许可信息

许可证类型：CC BY-NC-SA 4.0
许可证链接：https://creativecommons.org/licenses/by-nc-sa/4.0/deed.en

引用信息

引用标题：STRIDE-QA: Visual Question Answering Dataset for Spatiotemporal Reasoning in Urban Driving Scenes
作者：Keishi Ishihara, Kento Sasaki, Tsubasa Takahashi, Daiki Shiono, Yu Yamaguchi
年份：2025
预印本：arXiv:2508.10427
预印本链接：https://arxiv.org/abs/2508.10427
主要类别：cs.CV

致谢与资金来源

项目支持：项目 JPNP20017，由日本新能源产业技术综合开发机构 (NEDO) 资助。
使用的开源仓库：
- SpatialRGPT：用于构建数据集生成流程
- SAM 2.1：用于分割掩码生成
- dashcam-anonymizer：用于匿名化处理

隐私保护措施

为确保隐私保护，图像中的人脸和车牌使用 Dashcam Anonymizer 工具进行了匿名化处理。

搜集汇总

数据集介绍

构建方式

在自动驾驶视觉问答领域，STRIDE-QA数据集的构建体现了对时空推理能力的系统性探索。该数据集依托开源工具链精心设计，其生成流程整合了SpatialRGPT框架以构建问题生成管道，并采用SAM 2.1模型生成精细的图像分割掩码。为确保数据符合伦理规范，所有图像中的人脸与车牌信息均通过Dashcam Anonymizer工具进行了匿名化处理，有效保护了个人隐私。这一构建过程不仅融合了前沿的计算机视觉技术，还严格遵守了数据使用的法律与道德边界，为城市驾驶场景下的多模态研究提供了可靠基础。

特点

STRIDE-QA数据集的核心特征在于其专注于城市驾驶场景中的时空推理问答任务。该数据集通过精心设计的问题与答案对，促使模型深入理解动态环境中的物体运动、位置关系与时间演变。其视觉内容源于真实驾驶场景，经过匿名化处理后既保留了丰富的空间布局与时间序列信息，又确保了隐私安全。这种对时空维度的强调，使数据集能够有效评估模型在复杂、连续视觉输入下的推理能力，为自动驾驶系统的情境理解与决策支持研究提供了独特的评估基准。

使用方法

研究人员可利用STRIDE-QA数据集来训练与评估视觉问答模型，特别是在时空推理任务上的性能。使用前需遵循CC BY-NC-SA 4.0许可协议，确保非商业用途及相同方式分享。典型流程包括加载经匿名化处理的图像及其对应的问题-答案对，输入到多模态架构中进行端到端学习或分阶段微调。该数据集适用于探究模型对驾驶场景中物体轨迹、事件顺序及空间关系的理解深度，其标注格式便于集成至现有视觉语言训练框架，推动自动驾驶感知与推理技术的迭代发展。

背景与挑战

背景概述

随着自动驾驶技术的快速发展，对智能系统在复杂城市驾驶场景中进行时空推理的能力提出了更高要求。STRIDE-QA数据集于2025年由Keishi Ishihara、Kento Sasaki等研究人员发布，作为JPNP20017项目的一部分，并得到日本新能源产业技术综合开发机构（NEDO）的资助。该数据集专注于视觉问答任务，旨在推动自动驾驶领域中对动态环境的多层次理解，其核心研究问题在于如何让模型从连续视觉输入中推断物体运动、事件顺序及空间关系。通过提供丰富的标注数据，STRIDE-QA为评估和提升自动驾驶系统的情境感知与决策能力奠定了重要基础，对计算机视觉与人工智能在智能交通领域的应用具有显著影响力。

当前挑战

STRIDE-QA数据集致力于解决城市驾驶场景中的视觉时空推理问题，其核心挑战在于模型需要同时处理时间动态性与空间复杂性，例如准确预测车辆未来轨迹或理解行人交互意图。构建过程中的挑战主要包括数据采集与标注的难度，例如从真实驾驶视频中提取高质量时空注释需要大量人工努力，且确保标注一致性与准确性极具挑战；隐私保护要求对图像中的人脸和车牌进行匿名化处理，这增加了数据预处理的技术复杂度；此外，生成多样且真实的问答对以覆盖广泛推理场景，也需要精细的设计与验证流程。

常用场景

经典使用场景

在自动驾驶与计算机视觉领域，STRIDE-QA数据集为视觉问答任务提供了丰富的城市驾驶场景数据。该数据集通过结合时序图像序列与自然语言问题，专注于时空推理能力的评估，典型应用包括训练和测试模型在动态交通环境中理解物体运动、事件因果关系及场景演变的能力。研究者常利用其多帧视觉输入与复杂问题对，推动模型在真实世界驾驶情境下的高级认知功能发展。

衍生相关工作

围绕STRIDE-QA数据集，已衍生出一系列专注于时空推理的视觉语言模型研究。例如，借鉴其数据构建方法，后续工作扩展了多模态时序预训练框架，增强了模型对长序列驾驶场景的理解。同时，该数据集也促进了针对动态问答的评估基准发展，激励研究者设计更高效的架构以处理时序依赖与空间关系，推动了自动驾驶领域视觉推理技术的进步与创新。

数据集最近研究