UCVL

Name: UCVL
Creator: 中国科学院自动化研究所, 中国科学院大学, 武汉人工智能研究院
Published: 2025-02-13 21:38:17
License: 暂无描述

arXiv2025-02-13 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.09325v1

下载链接

链接失效反馈

官方服务：

资源简介：

UCVL数据集是一个针对犯罪监控视频分析的多模态大型语言模型基准。该数据集整合了UCF-Crime和UCFCrime Annotation数据集的资源，包含1899个视频，并重新组织了注释。数据集旨在评估多模态大型语言模型在犯罪监控视频的异常分析任务上的性能，包含多种类型的问题和答案对，用于训练和评估模型。

The UCVL Dataset is a multimodal large language model benchmark for crime surveillance video analysis. It integrates resources from the UCF-Crime and UCFCrime Annotation datasets, comprises 1899 videos, and has reorganized its annotations. This benchmark aims to evaluate the performance of multimodal large language models on anomaly analysis tasks for crime surveillance videos, and contains various question-answer pairs for model training and evaluation.

提供机构：

中国科学院自动化研究所, 中国科学院大学, 武汉人工智能研究院

创建时间：

2025-02-13

搜集汇总

数据集介绍

构建方式

UCVL数据集的构建过程首先是对现有异常行为视频数据集UCF-Crime和UCFCrime Annotation进行整合，通过重新组织和标注，形成了一个包含1,829个视频的数据集。在此基础上，UCVL设计了六种类型的问答，包括异常检测、异常分类、异常时间定位、多项选择题、事件描述和异常描述。这些问题旨在全面评估多模态大型语言模型在犯罪监控视频分析中的能力。为了生成多样化的问答对，UCVL利用了OpenAI的GPT-4o进行准确的评估。此外，UCVL还对八个流行的多模态大型语言模型进行了基准测试，参数范围从0.5B到40B，以验证其可靠性。最后，UCVL在训练集上微调了LLaVA-OneVision模型，并通过性能提升验证了数据集的高质量。

特点

UCVL数据集的特点主要体现在以下几个方面：首先，UCVL将传统的犯罪异常分析任务重新定义为统一的多模态大型语言模型问答格式，从而无需调整即可评估模型的通用性。其次，UCVL从多个方面评估多模态大型语言模型，通过Qwen2语言模型生成的多样化问答对。最后，UCVL的问答设计使模型答案的客观评分成为可能，同时详细的规则使GPT-4o能够有效地评估开放性描述任务。

使用方法

UCVL数据集的使用方法主要分为以下步骤：首先，利用Qwen2-72B和GPT-4o对视频进行总结，生成多任务问答对。然后，根据模型的不同参数大小，在NVIDIA H800 GPU上进行模型评估，包括异常检测、异常分类、异常时间定位、多项选择题、事件描述和异常描述等六个方面。最后，根据评估结果，可以对模型进行微调，以提高其在犯罪监控视频分析中的性能。

背景与挑战

背景概述

UCVL数据集是一项旨在评估大型多模态语言模型（MLLMs）在犯罪监控视频分析中处理异常事件能力的基准。该数据集由中国科学院自动化研究所、中国科学院大学和武汉人工智能研究所在2025年提出。UCVL数据集整合了UCF-Crime和UCFCrime Annotation数据集的1,829个视频和重新组织的注释，旨在解决现有基准在评估MLLMs理解和描述异常事件方面的不足。UCVL提出了六种类型的问答问题，并使用OpenAI的GPT-4o进行准确评估。该数据集的发布填补了MLLMs在犯罪监控视频分析领域的评估空白，并为相关研究提供了新的数据集。

当前挑战

UCVL数据集面临着几个挑战。首先，在犯罪监控视频中检测复杂的异常事件和事件的时间定位仍然是一个巨大的挑战。现有的方法通常在特定任务的特定数据集上进行训练，如异常检测、时间定位或视频描述，这些方法在其各自的领域内表现良好，但在提供详细描述和推理步骤方面存在不足，这对于安全官员快速了解复杂案件至关重要。其次，现有的异常事件基准并不适合定量评估MLLMs，因为它们的输出结构和评估指标是针对特定任务的。为了解决这些挑战，UCVL将传统的犯罪异常分析任务重新构建为统一的多任务问答格式，使MLLMs能够在不进行适配的情况下进行评估。UCVL还从多个方面评估MLLMs的能力，并使用GPT-4o对开放式的文本回答进行评估。

常用场景

经典使用场景

在计算机视觉领域，异常分析在监控视频中扮演着至关重要的角色。随着多模态大型语言模型（MLLMs）在各个领域表现出色，其在理解异常概念和细节方面的能力却因领域内过时的基准数据集缺乏而未得到充分研究。为此，我们提出了UCVL数据集，旨在为大型模型在犯罪监控视频分析中提供一个新的基准。UCVL数据集包括1,829个视频和从UCF-Crime和UCFCrime Annotation数据集中整理的注释，设计了六种问题类型，并生成了多样的QA对。通过OpenAI的GPT-4o进行准确评估，UCVL数据集的可靠性得到了验证。

衍生相关工作

UCVL数据集的提出不仅为犯罪监控视频分析提供了一个新的基准，而且还衍生了相关的经典工作。例如，研究人员可以基于UCVL数据集开发新的MLLMs，以提高其在犯罪监控视频分析中的性能。此外，UCVL数据集还可以用于开发新的评估指标和方法，以更好地评估MLLMs在犯罪监控视频分析中的能力。

数据集最近研究