UDVideoQA

Name: UDVideoQA
Creator: 亚利桑那州立大学
Published: 2026-02-25 01:33:12
License: 暂无描述

arXiv2026-02-25 更新2026-02-26 收录

下载链接：

https://ud-videoqa.github.io/UD-VideoQA/UD-VideoQA/

下载链接

链接失效反馈

官方服务：

资源简介：

UDVideoQA是由亚利桑那州立大学创建的面向城市动态多目标时空推理的交通视频问答数据集。该数据集包含16小时（约170万帧）的交通监控视频，覆盖多样化的天气、光照和交通条件，并采用事件驱动的动态模糊技术保护隐私。数据集包含28,000个问答对，平均每秒生成一个问题，涵盖从基础理解到反事实推理的五个层次推理任务。UDVideoQA旨在推动视频语言模型在复杂城市交通场景中的多模态推理能力，为自动驾驶和智能交通系统提供基准测试平台。

UDVideoQA is a traffic video question answering dataset developed by Arizona State University, focusing on spatio-temporal reasoning of dynamic multi-targets in urban traffic scenarios. This dataset contains 16 hours (approximately 1.7 million frames) of traffic surveillance videos, covering diverse weather, lighting and traffic conditions, and adopts event-driven dynamic blurring technology to protect privacy. It includes 28,000 question-answer pairs, with an average of one question generated per second, covering five levels of reasoning tasks ranging from basic comprehension to counterfactual reasoning. UDVideoQA aims to advance the multimodal reasoning capabilities of video-language models in complex urban traffic scenarios and provide a benchmark platform for autonomous driving and intelligent transportation systems.

提供机构：

亚利桑那州立大学

创建时间：

2026-02-25

搜集汇总

数据集介绍

构建方式

在复杂城市交通场景理解的研究背景下，UDVideoQA数据集的构建遵循了严谨的工程化流程。其核心源于对真实世界城市交叉路口长达16小时的监控录像采集，总计约170万帧原始视频数据。通过创新的基于事件的动态模糊技术，在保护行人及车辆隐私的同时，最大限度地保留了场景的时空连贯性与上下文完整性。构建过程采用半自动化的统一标注管线，将原始视频分割为10秒的片段，并在此基础上生成了约28,800对高质量问答对，平均标注密度达到每秒一个问题，确保了数据在时间维度上的高密度覆盖。

使用方法

在自动驾驶与智能交通系统的研究语境下，UDVideoQA数据集为视频语言模型的评估与开发提供了标准化平台。研究者可将其用于零样本评估，直接测试现有模型在复杂城市动态中的泛化能力；亦可通过参数高效微调策略，利用其密集标注的训练集对开源模型进行领域适应，以提升在细粒度视觉定位与高阶因果推理任务上的性能。数据集以JSONL格式发布，确保了与主流多模态框架的兼容性。其配套的标注工具与验证协议支持全流程的数据处理、质量控制和模型就绪数据导出，为推进鲁棒且符合伦理的现实世界多模态推理研究奠定了坚实基础。

背景与挑战

背景概述

随着智能交通系统与自动化监控技术的快速发展，对视频语言模型在复杂城市动态场景中的理解能力提出了更高要求。UDVideoQA数据集由亚利桑那州立大学的研究团队于2026年创建，旨在填补现有视频问答基准在真实世界、连续多智能体交互推理方面的空白。该数据集基于16小时的城市交通监控视频构建，包含约2.8万个问题-答案对，覆盖多样化的天气、光照与交通条件。其核心研究问题聚焦于评估模型在动态城市环境中的多对象时空推理能力，涵盖从基础感知到反事实推理的五个层次，为视频语言模型的鲁棒性评估提供了重要基准。

当前挑战

UDVideoQA面临的挑战主要体现在两个方面：在领域问题层面，该数据集旨在解决复杂城市交通场景中的多对象时空推理问题，其挑战在于模型需要同时处理高密度智能体交互、长时序依赖关系以及因果与反事实推理，而现有模型在抽象推理与细粒度视觉感知之间存在显著差距。在构建过程中，研究团队需克服真实监控视频中个人隐私保护与场景保真度之间的平衡难题，为此创新性地采用了事件驱动的动态模糊技术；同时，半自动化标注流程需确保大规模、高质量问题-答案对的生成与验证，并建立涵盖多层次推理能力的分类体系，以支持对模型认知能力的系统化评估。

常用场景

经典使用场景

在智能交通系统与自动驾驶研究领域，UDVideoQA数据集被广泛用于评估视频语言模型在复杂城市动态场景中的时空推理能力。该数据集通过真实路口监控视频构建，涵盖多样化的交通流量、天气与光照条件，为模型提供了密集的多智能体交互环境。研究者常利用其层次化的问题分类体系——从基础属性识别到事件推理、逆向推理乃至反事实推断——系统性地检验模型在视觉感知与因果推断方面的表现，从而推动视频问答技术向更精细、更鲁棒的方向演进。

解决学术问题

UDVideoQA致力于解决当前视频问答研究中存在的感知与推理脱节问题。传统数据集往往依赖网络来源或仿真视频，缺乏真实世界的时空连续性与场景真实性，导致模型在抽象推理上表现优异，却在基础视觉定位任务中频频失误。该数据集通过高密度的标注与多层次的问题设计，揭示了模型在细粒度属性识别、时序因果链条理解以及反事实假设验证等方面的薄弱环节，为弥合感知与推理之间的鸿沟提供了关键的评估基准与改进方向。

实际应用

在实际应用中，UDVideoQA为智能监控与城市交通管理提供了重要的技术支撑。其基于事件驱动的动态模糊技术能够在保护行人隐私的同时保持场景保真度，使得数据集可直接用于开发隐私安全的边缘AI系统。通过训练模型理解路口多智能体的行为模式与交互逻辑，该系统能够辅助交通流量分析、异常事件检测与风险评估，提升城市交通管理的智能化水平，并为自动驾驶系统在复杂城市场景中的决策制定提供可靠的感知与推理基础。

数据集最近研究