Human-related Anomaly Localization dataset

arXiv2025-04-18 更新2025-04-22 收录

下载链接：

http://arxiv.org/abs/2504.13460v1

下载链接

链接失效反馈

官方服务：

资源简介：

Human-related Anomaly Localization dataset是由北京邮电大学国家网络与交换技术重点实验室收集和注释的，该数据集包含12种类型的人类相关异常行为，如打斗、跌倒、抢劫等，共1159个视频，超过2543000帧，每个视频都有帧级注释的异常区间以及相应的帧标题和逻辑链文本。该数据集用于扩展少样本动作定位任务的应用范围，解决人类异常行为定位问题。

The Human-related Anomaly Localization dataset was collected and annotated by the State Key Laboratory of Networking and Switching Technology at Beijing University of Posts and Telecommunications. This dataset encompasses 12 types of human-related anomalous behaviors, such as fighting, falling, robbery and others, with a total of 1,159 videos and over 2,543,000 frames. Each video is equipped with frame-level annotations of anomalous intervals, along with corresponding frame titles and logical chain texts. This dataset is designed to expand the application scope of few-shot action localization tasks and address the problem of human anomalous behavior localization.

提供机构：

北京邮电大学国家网络与交换技术重点实验室

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

Human-related Anomaly Localization dataset（HAL）的构建基于从三个大规模异常数据集中手动筛选与人类活动相关的异常视频，包括MSAD、XD-Violence和CUVA。该数据集共包含12类人类相关异常行为，如斗殴、跌倒和抢劫等，总计1,161个视频，总时长26.3小时，涵盖超过2,543,000帧。每个视频均配有帧级异常区间标注、帧级描述文本以及逻辑链文本。为确保数据质量，研究团队通过视觉语言模型（VLM）和大型语言模型（LLM）分阶段生成结构化文本描述，最终形成约7,000条逻辑链文本。

使用方法

使用HAL数据集时，研究者可通过以下流程开展实验：首先加载视频数据及其对应的帧级标注与文本描述，利用预训练的C3D网络提取片段级视觉特征。随后，将视觉特征输入语义-时序金字塔编码器（STPE）以捕获多层次时空特征，同时通过CLIP文本编码器提取文本特征。为融合多模态信息，需调用语义感知的文本-视觉对齐模块，计算查询视频与支持视频的相似性映射，并结合逻辑链文本的语义信息优化对齐结果。最终，将对齐后的特征输入预测头生成动作提案，采用交叉熵损失函数进行端到端训练。评估时需计算mAP@0.5指标，并通过Soft-NMS过滤冗余提案。

背景与挑战

背景概述

Human-related Anomaly Localization dataset（HAL）由北京邮电大学网络与交换技术国家重点实验室的Hongwei Ji等人于2025年提出，旨在解决视频理解领域中人类异常行为定位的关键问题。该数据集从MSAD、XD-Violence和CUVA三个大型异常数据集中精选了12类人类相关异常行为（如斗殴、跌倒、抢劫等），包含1,161个视频，总时长26.3小时，并首次引入帧级异常区间标注及逻辑链文本描述。HAL的建立突破了传统时序动作定位（TAL）数据集局限于体育和日常活动的范式，为异常检测领域提供了首个标准化评测基准，其多模态标注框架（视觉-文本对齐）显著提升了模型对动态异常序列的语义理解能力。

当前挑战

HAL数据集面临的核心挑战体现在两个维度：其一，在领域问题层面，人类异常行为具有高度不确定性和场景依赖性，传统视觉特征难以区分相似背景下的细微异常差异（如跌倒与蹲下的动作混淆），且异常事件通常伴随长尾分布问题；其二，在构建过程中，需解决多源数据标注标准不统一、异常行为边界模糊等难题，研究者通过链式思维（CoT）推理方法生成层次化文本描述，但需平衡VLM生成的细粒度语义与LLM推理的逻辑连贯性。此外，跨模态对齐时视频片段与文本描述的时序错位问题，以及26.3小时视频的帧级标注成本，均为数据集构建带来显著挑战。

常用场景

经典使用场景

Human-related Anomaly Localization dataset（HAL）作为首个专注于人类异常行为定位的基准数据集，其经典使用场景主要集中于视频理解领域中的时序动作定位（Temporal Action Localization, TAL）任务。在少样本学习（Few-shot Learning）框架下，研究者通过整合视觉与文本模态信息，利用HAL中标注的异常行为时间区间及链式思维（CoT-like）文本描述，精准定位未见过类别的异常动作片段。例如，在监控视频分析中，模型可通过少量标注样本（如‘打架’‘跌倒’等异常类别）快速适应新场景，识别并定位具有时序依赖性的复杂异常事件。

解决学术问题

该数据集解决了少样本时序动作定位中两大核心学术问题：一是突破了传统方法依赖大量精确标注数据的限制，通过引入文本语义信息增强模型对动作共性与变异的捕捉能力；二是针对视觉相似但语义不同的动作片段（如排球扣杀与普通传球场景），利用CoT-like文本提供的因果逻辑关系，显著提升了模型对未见过类别的泛化能力。实验表明，HAL在ActivityNet1.3和THUMOS14数据集上将多实例5-shot场景下的mAP@0.5分别提升4%和12%，为少样本学习与跨模态对齐研究提供了新范式。

实际应用

HAL的实际应用场景广泛覆盖公共安全与智能监控领域。例如，在机场、地铁等高风险场所，系统可实时检测‘斗殴’‘抢劫’等异常行为并触发警报；在养老院中，通过分析‘老人跌倒’事件的时序文本描述，实现快速响应。此外，其跨模态对齐机制可迁移至体育视频分析，如从篮球比赛中定位‘扣篮’动作的精确起止时间，辅助赛事解说或战术分析。数据集涵盖的12类异常行为与26.3小时视频数据，为实际部署提供了充分的多样性保障。

数据集最近研究