five

Human-related Anomaly Localization dataset

收藏
arXiv2025-04-18 更新2025-04-22 收录
下载链接:
http://arxiv.org/abs/2504.13460v1
下载链接
链接失效反馈
官方服务:
资源简介:
Human-related Anomaly Localization dataset是由北京邮电大学国家网络与交换技术重点实验室收集和注释的,该数据集包含12种类型的人类相关异常行为,如打斗、跌倒、抢劫等,共1159个视频,超过2543000帧,每个视频都有帧级注释的异常区间以及相应的帧标题和逻辑链文本。该数据集用于扩展少样本动作定位任务的应用范围,解决人类异常行为定位问题。

The Human-related Anomaly Localization dataset was collected and annotated by the State Key Laboratory of Networking and Switching Technology at Beijing University of Posts and Telecommunications. This dataset encompasses 12 types of human-related anomalous behaviors, such as fighting, falling, robbery and others, with a total of 1,159 videos and over 2,543,000 frames. Each video is equipped with frame-level annotations of anomalous intervals, along with corresponding frame titles and logical chain texts. This dataset is designed to expand the application scope of few-shot action localization tasks and address the problem of human anomalous behavior localization.
提供机构:
北京邮电大学 国家网络与交换技术重点实验室
创建时间:
2025-04-18
搜集汇总
数据集介绍
main_image_url
构建方式
Human-related Anomaly Localization dataset(HAL)的构建基于从三个大规模异常数据集中手动筛选与人类活动相关的异常视频,包括MSAD、XD-Violence和CUVA。该数据集共包含12类人类相关异常行为,如斗殴、跌倒和抢劫等,总计1,161个视频,总时长26.3小时,涵盖超过2,543,000帧。每个视频均配有帧级异常区间标注、帧级描述文本以及逻辑链文本。为确保数据质量,研究团队通过视觉语言模型(VLM)和大型语言模型(LLM)分阶段生成结构化文本描述,最终形成约7,000条逻辑链文本。
使用方法
使用HAL数据集时,研究者可通过以下流程开展实验:首先加载视频数据及其对应的帧级标注与文本描述,利用预训练的C3D网络提取片段级视觉特征。随后,将视觉特征输入语义-时序金字塔编码器(STPE)以捕获多层次时空特征,同时通过CLIP文本编码器提取文本特征。为融合多模态信息,需调用语义感知的文本-视觉对齐模块,计算查询视频与支持视频的相似性映射,并结合逻辑链文本的语义信息优化对齐结果。最终,将对齐后的特征输入预测头生成动作提案,采用交叉熵损失函数进行端到端训练。评估时需计算mAP@0.5指标,并通过Soft-NMS过滤冗余提案。
背景与挑战
背景概述
Human-related Anomaly Localization dataset(HAL)由北京邮电大学网络与交换技术国家重点实验室的Hongwei Ji等人于2025年提出,旨在解决视频理解领域中人类异常行为定位的关键问题。该数据集从MSAD、XD-Violence和CUVA三个大型异常数据集中精选了12类人类相关异常行为(如斗殴、跌倒、抢劫等),包含1,161个视频,总时长26.3小时,并首次引入帧级异常区间标注及逻辑链文本描述。HAL的建立突破了传统时序动作定位(TAL)数据集局限于体育和日常活动的范式,为异常检测领域提供了首个标准化评测基准,其多模态标注框架(视觉-文本对齐)显著提升了模型对动态异常序列的语义理解能力。
当前挑战
HAL数据集面临的核心挑战体现在两个维度:其一,在领域问题层面,人类异常行为具有高度不确定性和场景依赖性,传统视觉特征难以区分相似背景下的细微异常差异(如跌倒与蹲下的动作混淆),且异常事件通常伴随长尾分布问题;其二,在构建过程中,需解决多源数据标注标准不统一、异常行为边界模糊等难题,研究者通过链式思维(CoT)推理方法生成层次化文本描述,但需平衡VLM生成的细粒度语义与LLM推理的逻辑连贯性。此外,跨模态对齐时视频片段与文本描述的时序错位问题,以及26.3小时视频的帧级标注成本,均为数据集构建带来显著挑战。
常用场景
经典使用场景
Human-related Anomaly Localization dataset(HAL)作为首个专注于人类异常行为定位的基准数据集,其经典使用场景主要集中于视频理解领域中的时序动作定位(Temporal Action Localization, TAL)任务。在少样本学习(Few-shot Learning)框架下,研究者通过整合视觉与文本模态信息,利用HAL中标注的异常行为时间区间及链式思维(CoT-like)文本描述,精准定位未见过类别的异常动作片段。例如,在监控视频分析中,模型可通过少量标注样本(如‘打架’‘跌倒’等异常类别)快速适应新场景,识别并定位具有时序依赖性的复杂异常事件。
解决学术问题
该数据集解决了少样本时序动作定位中两大核心学术问题:一是突破了传统方法依赖大量精确标注数据的限制,通过引入文本语义信息增强模型对动作共性与变异的捕捉能力;二是针对视觉相似但语义不同的动作片段(如排球扣杀与普通传球场景),利用CoT-like文本提供的因果逻辑关系,显著提升了模型对未见过类别的泛化能力。实验表明,HAL在ActivityNet1.3和THUMOS14数据集上将多实例5-shot场景下的mAP@0.5分别提升4%和12%,为少样本学习与跨模态对齐研究提供了新范式。
实际应用
HAL的实际应用场景广泛覆盖公共安全与智能监控领域。例如,在机场、地铁等高风险场所,系统可实时检测‘斗殴’‘抢劫’等异常行为并触发警报;在养老院中,通过分析‘老人跌倒’事件的时序文本描述,实现快速响应。此外,其跨模态对齐机制可迁移至体育视频分析,如从篮球比赛中定位‘扣篮’动作的精确起止时间,辅助赛事解说或战术分析。数据集涵盖的12类异常行为与26.3小时视频数据,为实际部署提供了充分的多样性保障。
数据集最近研究
最新研究方向
近年来,Human-related Anomaly Localization dataset(HAL)在视频理解领域引起了广泛关注,特别是在人类异常行为检测方面。该数据集通过整合来自MSAD、XD-Violence和CUVA等大型异常数据集的视频资源,涵盖了12类人类相关异常行为,如打架、跌倒和抢劫等,共计1,161个视频,累计时长26.3小时。HAL的推出填补了现有时间动作定位(TAL)数据集在异常行为检测方面的空白,为少样本学习(Few-shot Learning)在这一领域的应用提供了重要支持。前沿研究方向主要集中在结合视觉语言模型(VLM)和大语言模型(LLM)的链式思维(Chain-of-Thought, CoT)推理方法,通过生成结构化文本描述来捕捉动作间的时序依赖和因果关系,从而提升模型对异常行为的定位能力。这一方法在公开数据集ActivityNet1.3和THUMOS14上的实验表明,其性能显著优于现有方法,尤其在多实例5-shot场景下提升了12%。HAL数据集的引入不仅扩展了少样本时间动作定位的应用范围,还为视频监控、公共安全等实际场景中的异常检测提供了新的研究工具和基准。
相关研究论文
  • 1
    Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization北京邮电大学 国家网络与交换技术重点实验室 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作