SVTA

github2025-06-05 更新2025-06-07 收录

下载链接：

https://github.com/Shuyu-XJTU/SVTA

下载链接

链接失效反馈

官方服务：

资源简介：

SVTA（合成视频文本异常基准）是第一个用于跨模态异常检索的大规模数据集，利用生成模型克服数据可用性挑战。该数据集包含41,315个视频（1.36M帧）和配对的字幕，涵盖30种正常活动和68种异常事件。SVTA消除了与真实世界异常收集相关的隐私风险，同时保持了现实场景。

SVTA (Synthetic Video Text Anomaly Benchmark) is the first large-scale dataset designed for cross-modal anomaly retrieval, leveraging generative models to overcome the challenges of data availability. The dataset comprises 41,315 videos (with 1.36 million frames) and their corresponding subtitles, covering 30 normal activities and 68 anomaly events. SVTA eliminates privacy risks associated with real-world anomaly collection while maintaining realistic scenarios.

创建时间：

2025-05-30

原始信息汇总

SVTA数据集概述

数据集简介

名称：SVTA (Synthetic Video-Text Anomaly benchmark)
类型：跨模态异常检索数据集
特点：首个大规模合成视频-文本异常检索基准
目标：解决真实世界异常数据稀缺和隐私问题

核心特点

数据规模：41,315个视频(1.36M帧)及配对文本
异常类型：68种异常事件(如偷窃、枪击、自然灾害)
正常活动：30种正常活动(如站立、行走、运动)
数据来源：完全合成生成
标注格式：视频级文本描述

技术构建

文本生成：使用现成LLM生成多样化视频描述
视频生成：采用先进视频生成模型制作高质量视频
标签处理：
- LLM初步标注
- K-Means聚类优化
- 人工验证

对比优势

指标	SVTA	其他数据集(平均)
视频数量	41,315	~1,000
异常类型	68	~15
文本描述	41,315	~2,000
异常:正常比	3:2	1:1

实验结果

基准模型表现

测试模型：CLIP4Clip、X-CLIP、GRAM
最佳表现：
- T2V R@1: 57.3(GRAM)
- V2T R@1: 56.5(GRAM)
挑战性：所有模型表现均有提升空间

跨域测试(UCFCrime-AR)

最佳表现：
- T2V R@1: 34.5(GRAM)
- V2T R@1: 32.4(GRAM)

获取方式

Kaggle：https://www.kaggle.com/datasets/shuyuyang666/svta-synthetic-video-text-anomaly-benchmark
论文：https://arxiv.org/abs/2506.01466
项目页：https://svta-mm.github.io/SVTA.github.io/

引用格式

bibtex @article{yang2025towards, title={Towards Scalable Video Anomaly Retrieval: A Synthetic Video-Text Benchmark}, author={Yang, Shuyu and Wang, Yilun and Wang, Yaxiong and Zhu, Li and Zheng, Zhedong}, booktitle={arXiv preprint arXiv:2506.01466}, year={2025}, }

搜集汇总

数据集介绍

构建方式

在视频异常检索领域，数据稀缺与隐私限制长期制约着研究进展。SVTA数据集创新性地采用生成式模型构建方案，通过大型语言模型生成涵盖68类异常事件的多样化文本描述，继而指导开源视频生成模型合成高质量视频内容。为确保数据质量，研究团队运用K-Means聚类算法对未标注样本进行初步分类，并辅以人工校验，最终形成包含41,315个视频-文本对的跨模态基准数据集，有效解决了真实异常数据获取困难的问题。

使用方法

该数据集支持端到端的视频异常检索任务评估，研究者可通过文本查询在视频库中定位异常事件。基准测试表明，主流视频-文本检索模型如CLIP4Clip、X-CLIP和GRAM在SVTA上均表现出性能差异，其中文本到视频检索任务的R@1指标跨度达23.6%-57.3%。使用时应遵循标准跨模态检索协议，将视频帧输入视觉编码器，文本描述输入语言编码器，在联合嵌入空间计算相似度，最终通过Recall@K等指标评估模型性能。

背景与挑战

背景概述

SVTA（Synthetic Video-Text Anomaly benchmark）是由Shuyu Yang、Yilun Wang、Yaxiong Wang、Li Zhu和Zhedong Zheng等研究人员于2025年提出的首个大规模跨模态异常检索数据集。该数据集旨在通过自然语言查询定位视频中的异常事件，以提升公共安全领域的应用效能。传统数据集受限于真实世界异常事件的长尾特性及隐私约束，导致数据稀缺且难以大规模收集。SVTA创新性地利用生成模型构建了包含41,315个视频（1.36M帧）的合成数据集，涵盖68类异常事件（如盗窃、爆炸）和30类正常活动（如行走、运动），其规模与多样性显著超越了UBnormal、UCF-Crime等现有基准。该工作发表于arXiv预印本平台，为视频理解与跨模态检索领域提供了兼具隐私安全性与场景真实性的新范式。

当前挑战

SVTA面临的挑战主要体现在两方面：领域问题层面，视频异常检索需解决自然语言查询与复杂视觉场景的细粒度对齐问题，尤其是罕见异常事件的语义泛化能力；数据构建层面，合成视频需平衡生成质量与场景真实性，而大规模标注的可靠性依赖于LLM生成文本的准确性及后续聚类与人工校验流程的严谨性。实验表明，即使CLIP4Clip、X-CLIP等先进模型在SVTA上的检索准确率（R@1最高57.3%）仍存在提升空间，凸显了跨模态表征学习在异常场景下的技术瓶颈。

常用场景

经典使用场景

在视频异常检索领域，SVTA数据集通过合成视频与文本的跨模态配对，为研究者提供了一个大规模、多样化的基准测试平台。其独特的合成方法克服了真实异常数据稀缺和隐私问题，使得该数据集在训练和评估视频文本检索模型时表现出色。特别是在模拟长尾异常事件方面，SVTA通过涵盖68种异常类别和30种正常活动，为模型提供了丰富的学习素材。

解决学术问题

SVTA数据集有效解决了视频异常检索中的两大核心难题：数据稀缺性与隐私限制。传统数据集因真实异常事件的罕见性而规模有限，且采集过程涉及隐私风险。SVTA利用生成模型合成海量视频文本对，不仅扩充了数据规模，还保持了场景的真实性。这一创新为跨模态检索算法的鲁棒性评估提供了可靠基础，推动了视频理解领域的技术进步。

实际应用

在公共安全监控领域，SVTA数据集的应用潜力显著。其合成的异常事件视频（如盗窃、斗殴、自然灾害）可用于训练智能监控系统，提升系统通过自然语言查询定位异常行为的能力。由于数据完全合成，避免了隐私泄露风险，使得该数据集可直接部署于敏感场所的安防系统开发，为智慧城市建设和突发事件响应提供了技术支撑。

数据集最近研究