SOVABench

Name: SOVABench
Creator: 里程碑系统公司; 巴塞罗那大学·计算机视觉中心; 奥尔堡大学
Published: 2026-01-09 18:27:37
License: 暂无描述

arXiv2026-01-09 更新2026-01-13 收录

下载链接：

https://github.com/oriol-rabasseda/sovabench.git

下载链接

链接失效反馈

官方服务：

资源简介：

SOVABench是由里程碑系统公司、巴塞罗那大学等机构联合构建的车辆监控行为检索基准数据集，包含9,882条从MEVA和VIRAT监控视频中提取的样本。该数据集创新性地以相反动作对（如开门/关门）为核心构建，包含1,423个查询视频和14类动作标签，视频时长集中在1-10秒，通过空间裁剪突出主体动作。数据集采用双协议评估体系：跨动作对检索（Inter-pair）评估动作区分能力，动作对内检索（Intra-pair）检验时序理解能力，为多模态大模型在监控场景中的行为分析和时序推理提供了标准化测试平台。

SOVABench is a benchmark dataset for vehicle surveillance behavior retrieval jointly constructed by Milestone Systems, University of Barcelona and other institutions. It contains 9,882 samples extracted from MEVA and VIRAT surveillance videos. This dataset innovatively takes opposite action pairs (such as opening/closing a door) as its core construction framework, including 1,423 query videos and 14 categories of action labels. The durations of the videos are mainly concentrated between 1 and 10 seconds, and the main subjects' actions are highlighted through spatial cropping. The dataset adopts a dual-protocol evaluation system: Inter-pair retrieval is used to evaluate action discrimination ability, while Intra-pair retrieval tests temporal understanding ability. It provides a standardized test platform for multimodal large language models (LLMs) to conduct behavior analysis and temporal reasoning in surveillance scenarios.

提供机构：

里程碑系统公司; 巴塞罗那大学·计算机视觉中心; 奥尔堡大学

创建时间：

2026-01-08

搜集汇总

数据集介绍

构建方式

在视频监控领域，对车辆相关动作进行精准检索是提升事件分析与预警能力的关键。SOVABench数据集基于真实监控场景构建，从MEVA和VIRAT两大权威监控数据集中精心筛选车辆活动片段，通过人工标注确保动作边界的清晰与完整性。数据构建过程注重动作的语义对立性，将车辆行为组织成多组相反动作对，如“装载”与“卸载”、“开启车门”与“关闭车门”等，并针对每段视频划定空间兴趣区域以突出动作主体、抑制背景干扰。最终形成包含两种评估协议的结构化检索基准，为模型在动作判别与时间方向理解方面的能力提供系统化评估框架。

特点

SOVABench的核心特点在于其专注于车辆监控场景下的细粒度动作检索，通过设计“动作对间”与“动作对内”两种互补评估协议，全面考察模型的动作语义区分与时间演进理解能力。数据集包含丰富的真实监控视频片段，覆盖多种常见车辆动作，且样本在场景与背景上具有多样性，避免了模型仅依赖上下文信息进行推断。其独特的对立动作对结构不仅增强了检索任务的挑战性，也为分析模型在时序推理上的薄弱环节提供了清晰视角。此外，数据集中还引入了不涉及车辆的人类活动样本作为干扰项，进一步模拟了开放世界监控环境的复杂性。

使用方法

SOVABench主要用于评估多模态模型在基于内容的视频检索任务上的性能，特别是在动作识别与时间方向理解方面。研究者可利用其提供的两种协议进行模型测试：‘动作对间’协议评估模型区分不同动作大类的能力，‘动作对内’协议则挑战模型区分同一动作对中两个相反时序方向的能力。使用该数据集时，需遵循其提供的元数据与提取流程，在获得源数据集授权的基础上重建基准。评估指标采用平均精度均值，确保了结果的可比性与鲁棒性。该数据集为开发更精准的监控视频分析算法提供了重要的验证平台。

背景与挑战

背景概述

SOVABench（Surveillance Opposite Vehicle Actions Benchmark）是由Milestone Systems A/S、巴塞罗那大学计算机视觉中心以及奥尔堡大学的研究团队于2026年共同提出的一个专注于车辆监控场景的视频检索基准数据集。该数据集的构建源于监控领域中对事件自动识别与重复行为分析的迫切需求，旨在填补现有基于内容的视频检索基准在动作判别评估方面的空白。SOVABench从真实世界的监控录像中提取车辆相关动作，并围绕相反动作对进行组织，其核心研究问题在于评估模型在跨动作判别与时间方向理解上的能力。该数据集的推出为多模态大语言模型在监控视频分析中的应用提供了重要的评估工具，推动了动作检索技术在安防领域的深入发展。

当前挑战

SOVABench所解决的核心领域问题是监控视频中的动作检索，其挑战在于模型需要区分视觉和语义相似但时间演化相反的车辆动作，例如“打开”与“关闭”车门。这一任务要求模型不仅捕捉高层语义，还需理解物体关系、运动模式与时间动态，而现有模型在时间方向理解上表现薄弱。在数据集构建过程中，研究团队面临从MEVA和VIRAT等监控数据集中提取并标注车辆动作的复杂性，需确保动作边界的精确性以及样本的时空对齐。此外，数据集中包含的非车辆干扰样本增加了检索难度，而视频的空间裁剪导致非标准帧形状，进一步对模型的泛化能力构成挑战。

常用场景

经典使用场景

在智能视频监控领域，SOVABench作为首个专注于车辆监控场景下动作检索的基准数据集，其经典应用场景在于评估多模态大语言模型在复杂动态环境中的动作判别能力。该数据集通过构建对立动作对（如开启与关闭车门、装载与卸载货物），模拟真实监控中需区分的细微行为差异，为模型提供了衡量时空理解深度的标准化测试平台。研究人员利用其双协议评估框架（跨对检索与对内检索），系统检验嵌入表示是否能够捕捉动作语义及时间演化方向，从而推动监控视频分析技术向更精细、更智能的方向演进。

解决学术问题

SOVABench针对现有基于内容的视频检索基准在监控场景下的局限性，解决了动作识别与时序方向理解两大核心学术问题。传统检索基准多关注场景级相似性，忽视了监控中至关重要的动作判别需求；该数据集通过引入对立动作对结构，迫使模型区分视觉相似但时间演进相反的行为，从而揭示嵌入表示在刻画动态语义时的不足。其意义在于为多模态学习社区提供了首个专门评估车辆监控动作检索能力的基准，促进了模型在细粒度时空推理方面的进步，并为开发更鲁棒的监控智能系统奠定了实证基础。

衍生相关工作

围绕SOVABench数据集，学术界衍生出一系列聚焦于多模态嵌入学习与监控视频理解的前沿工作。例如，基于该数据集提出的MLLM-to-Embedding框架，启发了后续研究如何利用多模态大语言模型的指令跟随能力生成任务感知的嵌入表示，从而提升动作检索性能。同时，该基准也促进了针对视频时序建模的模型优化，如对Video-MLLMs在短时原子动作识别上的改进探索。这些衍生工作共同推动了监控视频分析领域向更高效、更可解释的方向发展，并为跨模态检索技术的创新提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集