five

SVTA (Synthetic Video-Text Anomaly benchmark)

收藏
arXiv2025-06-02 更新2025-06-06 收录
下载链接:
https://svta-mm.github.io/SVTA.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
SVTA 数据集是由西安交通大学、合肥工业大学和澳门大学的研究团队创建的,旨在解决视频异常检索中的数据稀缺和隐私限制问题。该数据集包含了 41,315 个视频-文本对,涵盖了 68 种异常类型和 30 种正常活动,其中异常视频和正常视频的比例为 3:2。数据集采用了文本指导的视频生成模型,确保了视频内容与文本描述的一致性,同时避免了真实数据收集中的隐私问题。SVTA 数据集在视频异常检索领域具有重要的应用价值,有助于提高模型的鲁棒性和泛化能力。

The SVTA dataset was created by research teams from Xi'an Jiaotong University, Hefei University of Technology, and the University of Macau, aiming to address the issues of data scarcity and privacy constraints in video anomaly retrieval. This dataset contains 41,315 video-text pairs, covering 68 types of anomalies and 30 types of normal activities, with a 3:2 ratio between anomalous and normal videos. The dataset adopts text-guided video generation models, ensuring the consistency between video content and text descriptions, while avoiding privacy issues arising from real-world data collection. The SVTA dataset holds significant application value in the field of video anomaly retrieval, and helps improve the robustness and generalization ability of models.
提供机构:
西安交通大学, 合肥工业大学, 澳门大学
创建时间:
2025-06-02
搜集汇总
数据集介绍
构建方式
在视频异常检索领域,数据稀缺和隐私限制长期制约着研究进展。SVTA数据集创新性地采用生成式模型构建方法,通过大型语言模型(LLMs)生成涵盖68类异常事件的多样化文本描述,并利用文本到视频生成模型Wan2.1合成高质量视频。构建流程包含三个关键阶段:首先基于UCA、UCFCrime-AR等现有数据集扩展文本描述,通过LLMs生成包含年龄、性别、环境等多维度变体的25,170条异常文本;其次采用FP8量化和TeaCache加速技术高效生成33帧、480×832分辨率的视频;最后通过LLM标注和K-Means聚类统一41,315个视频-文本对的68类异常和30类正常活动标签。
特点
作为首个大规模跨模态异常检索基准,SVTA包含41,315个视频-文本对(136万帧),其显著特点体现在:异常覆盖广度超越现有基准5倍,包含跌倒、盗窃等68类细粒度异常事件;视频质量方面,合成内容克服了真实监控视频常见的模糊和光照问题;数据多样性通过多源文本采集和生成式扩增实现,涵盖不同人口统计特征和环境场景;伦理优势体现在完全合成数据规避了隐私风险。数据集采用3:2的异常-正常样本比例,有效缓解了现实场景中异常数据的长尾分布问题。
使用方法
SVTA严格按7:1:2比例划分训练、验证和测试集,支持视频-文本双向检索任务评估。研究者可采用CLIP4Clip、X-CLIP等基准模型,通过Recall@K、Median Rank等指标衡量性能。数据集特别适合探索三种应用场景:训练深度跨模态模型学习判别性特征,其规模是现有基准的20倍;测试模型对细粒度异常语义的理解能力,如区分'无人机坠落'与'无人机故障';验证零样本迁移性能,实验表明在UCFCrime-AR等真实数据集上可达34.5%的R@1准确率。所有视频文本对均附带标准化标签,支持异常行为分析的细粒度研究。
背景与挑战
背景概述
SVTA(Synthetic Video-Text Anomaly benchmark)是由西安交通大学、合肥工业大学和澳门大学的研究团队于2025年提出的首个大规模合成视频-文本异常检索基准数据集。该数据集旨在解决公共安全领域中视频异常检索(VAR)任务的数据稀缺问题,通过生成式模型构建了41,315个视频-文本对,涵盖68种异常类型和30种正常活动。SVTA的诞生填补了传统异常检测数据集在规模、多样性和隐私保护方面的缺陷,为跨模态异常分析提供了标准化测试平台。其创新性地利用大语言模型生成多样化文本描述,并基于文本到视频生成模型合成高质量视频,显著提升了异常检索模型的泛化能力。
当前挑战
SVTA面临的挑战主要体现在两个维度:领域问题层面,传统异常检测受限于真实异常的长尾分布特性,现有数据集仅覆盖13-22种异常类型,且样本量不足1,900个,难以满足深度学习模型的训练需求;构建过程层面,需平衡生成视频的多样性与真实性,解决文本到视频转换中的语义对齐问题,并通过K-Means聚类和人工校验确保68类异常标注的准确性。此外,数据集需克服生成模型固有的噪声干扰,保持15fps视频序列中异常事件的时序连贯性,同时确保不同人口统计特征和环境场景的均衡分布。
常用场景
经典使用场景
在智能安防领域,SVTA数据集通过其合成的视频-文本异常样本,为视频异常检索(VAR)任务提供了标准化评估基准。该数据集覆盖68类异常事件和30种正常活动,支持研究者构建跨模态检索模型,以自然语言查询精准定位监控视频中的异常片段。其合成数据特性有效规避了真实监控视频中常见的隐私问题与数据稀疏性限制,成为验证细粒度异常检索算法的理想平台。
衍生相关工作
SVTA推动了多项视频理解领域的创新研究:GRAM等跨模态大模型通过该数据集验证了其在异常检索任务的零样本迁移能力;CLIP4Clip的时序增强版本在SVTA上实现了55.4%的R@1精度,为视频-文本对齐提供了新基线。后续工作如VARA进一步扩展了基于SVTA的细粒度异常定位框架,相关成果已发表于CVPR等顶级会议。
数据集最近研究
最新研究方向
在视频异常检测与检索领域,SVTA(Synthetic Video-Text Anomaly benchmark)数据集的推出标志着合成数据技术的重要突破。该数据集通过结合大型语言模型(LLMs)和视频生成模型,构建了包含41,315个视频-文本对的大规模跨模态基准,覆盖68种异常事件和30种正常活动。这一创新有效解决了传统异常检测数据集在数据稀缺性、隐私约束和长尾分布等方面的固有局限。当前研究热点聚焦于利用SVTA提升跨模态检索模型的泛化能力,探索零样本迁移学习在真实场景中的应用潜力。最新实验表明,基于SVTA训练的模型在UCFCrime-AR和OOPS!等真实数据集上展现出竞争优势,为智能安防领域的细粒度异常检索提供了新的技术路径。该数据集通过合成技术保障了数据多样性,同时规避了真实监控视频涉及的伦理风险,为视频理解领域建立了兼顾规模与隐私的新范式。
相关研究论文
  • 1
    Towards Scalable Video Anomaly Retrieval: A Synthetic Video-Text Benchmark西安交通大学, 合肥工业大学, 澳门大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作