UCF-crime 描述数据集 (UCCD)

Name: UCF-crime 描述数据集 (UCCD)
Creator: 西北工业大学
Published: 2023-10-04 23:31:02
License: 暂无描述

arXiv2023-10-04 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2310.02894v1

下载链接

链接失效反馈

官方服务：

资源简介：

UCCD是一个专注于视频监控中个体行为描述的数据集，由西北工业大学创建。该数据集包含1012个视频，详细描述了7820个个体的动态行为，涵盖正常与异常场景。每个个体的行为描述包括位置、服装及与其他元素的交互。数据集通过人工标注，确保描述的准确性和客观性。UCCD不仅用于分析监控视频中的个体行为，还适用于动作识别和视频异常检测，为复杂场景下的行为分析提供了丰富的资源。

UCCD is a dataset dedicated to individual behavior description in video surveillance, created by Northwestern Polytechnical University. This dataset comprises 1012 videos, comprehensively documenting the dynamic behaviors of 7820 individuals, covering both normal and abnormal scenarios. The behavior description for each individual includes their location, attire, and interactions with other elements in the scene. The dataset is manually annotated to ensure the accuracy and objectivity of the descriptions. UCCD can be used not only for analyzing individual behaviors in surveillance videos, but also for action recognition and video anomaly detection, providing a rich resource for behavior analysis in complex scenarios.

提供机构：

西北工业大学

创建时间：

2023-10-04

搜集汇总

数据集介绍

构建方式

在视频监控领域，精细化描述个体行为的需求日益凸显，UCF-crime描述数据集（UCCD）的构建旨在填补这一空白。该数据集以UCF-crime视频库为基础，通过严谨的人工标注流程，对1012段监控视频中的7820个个体行为进行了细粒度描述。标注过程由20名经过培训的母语标注者协同完成，每段视频由五人独立标注，再由专家审核筛选，确保描述的客观性与准确性。标注内容涵盖个体首次出现时的边界框定位、服饰特征、时空轨迹及其与场景元素的交互行为，累计投入超过5000小时，形成了总时长112小时、包含丰富时空上下文的行为描述文本。

特点

UCCD数据集在监控视频分析领域展现出独特优势。其数据源直接来自真实监控场景，不仅包含常规行为，还涵盖了13类异常事件（如袭击、盗窃、交通事故等），提供了复杂场景下的行为多样性。与主流视频描述数据集相比，UCCD突破了视频级或事件级描述的局限，实现了以人为中心的细粒度叙事，平均每条描述达34词，完整覆盖个体从出现到消失的全程行为。数据集通过色彩编码的边界框序列实现多目标跟踪，并保留个体间的交互关系，为理解密集场景下的行为动力学提供了结构化注释。

使用方法

该数据集适用于监控视频理解的多项任务，包括个体行为描述生成、异常行为分析、跨模态学习等。研究者可利用其提供的边界框坐标、时间戳及文本描述，训练端到端的视频描述模型。典型应用流程包括：首先基于YOLOv7与StrongSort算法进行个体检测与跟踪，提取时序视觉特征；随后通过变形Transformer架构融合全局场景特征与个体局部特征；最终利用定位头与描述头生成带时间边界的自然语言描述。数据已划分为训练集（584视频）、验证集（205视频）与测试集（223视频），支持使用BLEU、CIDER、METEOR等指标进行模型评估。

背景与挑战

背景概述

在视频监控领域，对视频中每个个体的行为进行精细化描述正变得日益重要，尤其在包含多人的复杂场景中。现有视频级描述数据集难以提供针对个体具体行为的细粒度刻画，这限制了对个体行为的深入解析与身份判定。为应对这一挑战，西北工业大学的研究团队于2023年构建了以人为中心的视频监控描述数据集UCF-crime Captioning Dataset (UCCD)。该数据集基于UCF-crime数据集，涵盖了1,012个监控视频，对其中7,820个个体的动态行为进行了详细标注，包括位置、衣着及与场景元素的交互信息。UCCD的创立标志着视频监控分析从异常事件检测向个体行为深度理解的重要范式转变，为视频描述、行为分析及异常检测等研究方向提供了全新的基准与数据基础。

当前挑战

UCCD数据集旨在解决的核心领域挑战是实现监控视频中个体行为的细粒度、以人为中心的描述生成。这要求模型不仅能识别和追踪视频中的多个个体，还需理解并生成描述其复杂动态行为及交互的自然语言。具体挑战包括：在密集多目标场景下实现精准的个体检测与持续跟踪；对个体行为（尤其是异常行为）进行时序建模与语义理解；以及生成连贯、准确且覆盖行为细节的文本描述。在数据集构建层面，挑战同样显著：标注过程需耗费大量人力对个体进行跨帧追踪与行为描述，确保标注的客观性与一致性；同时，需处理监控视频中常见的光照变化、遮挡及复杂背景干扰，这对标注质量与模型泛化能力均提出了较高要求。

常用场景

经典使用场景

在视频监控与行为分析领域，UCF-crime描述数据集（UCCD）为以人为中心的细粒度行为描述任务提供了基准。该数据集通过对监控视频中每个个体的动态行为进行详尽的文本描述，包括其位置、衣着、动作及与他人的交互，为模型训练与评估提供了丰富且结构化的标注信息。其经典使用场景在于推动视频监控字幕生成这一新兴研究方向，使得计算机视觉系统能够超越传统的异常检测，实现对复杂场景下个体行为的深度理解与自然语言描述。

解决学术问题

UCCD数据集主要解决了视频监控分析中长期存在的学术难题，即如何从视频级或事件级的粗粒度描述转向以个体为单位的细粒度行为理解。传统方法难以在多人复杂场景中准确关联特定身份与其具体行为序列。该数据集通过提供7820个个体的精确行为描述，为研究个体行为识别、跨模态（视觉-语言）对齐、以及长时序行为建模等关键问题提供了数据基础，显著推动了视频内容理解从宏观事件检测向微观个体叙事的方向演进。

衍生相关工作

围绕UCCD数据集，已衍生出一系列重要的研究工作。其配套论文提出了一种基于可变形Transformer和人物检测跟踪的端到端视频字幕生成方法，该方法在个体行为描述任务上取得了先进性能。该数据集与方法的发布，进一步激发了学术界对人物中心化视频理解、密集视频字幕生成、以及监控视频语义分析等方向的探索。后续研究可在此基础上，发展更高效的人物重识别与跟踪算法、结合多模态信息的交互行为推理模型，以及面向开放场景的零样本行为描述技术。

以上内容由遇见数据集搜集并总结生成