HIVAU-70k

github2024-12-10 更新2024-12-18 收录

下载链接：

https://github.com/pipixin321/HolmesVAU

下载链接

链接失效反馈

官方服务：

资源简介：

HIVAU-70k是一个大规模基准数据集，用于在任何粒度上进行分层视频异常理解。该数据集通过结合手动视频分割和使用大型语言模型的递归自由文本注释，生成了超过70,000个多粒度注释，这些注释组织在剪辑级、事件级和视频级段中。

HIVAU-70k is a large-scale benchmark dataset for hierarchical video anomaly understanding across arbitrary granularities. It generates over 70,000 multi-granularity annotations by combining manual video segmentation with recursive free-text annotation processes powered by large language models, where these annotations are organized into clip-level, event-level, and video-level segments.

创建时间：

2024-12-09

原始信息汇总

Holmes-VAU: Towards Long-term Video Anomaly Understanding at Any Granularity

数据集概述

名称: HIVAU-70k
目标: 解决传统视频异常理解方法在处理不同时间尺度和上下文中的异常时的局限性，提供多层次的异常标注。
特点:
- 包含超过70,000个多粒度标注，涵盖片段级、事件级和视频级。
- 使用半自动化的标注引擎，结合手动视频分割和递归自由文本标注，利用大语言模型（LLMs）生成高质量标注。

数据结构

数据集的结构如下：

├── HIVAU-70k ├── instruction ├── merge_instruction_test_final.jsonl └── merge_instruction_train_final.jsonl ├── raw_annotations ├── ucf_database_train.json ├── ucf_database_test.json ├── xd_database_train.json └── xd_database_test.json └── videos ├── ucf-crime ├── clips ├── events └── videos ├── train ├── Abuse001_x264.mp4 ├── ... └── test ├── Abuse028_x264.mp4 ├── ... └── xd-violence ├── clips ├── events └── videos

当前状态

[x] 发布论文。
[x] 发布HIVAU-70k标注。
[ ] 发布HolmesVAU模型。
[ ] 发布推理代码。
[ ] 发布训练代码。

搜集汇总

数据集介绍

构建方式

在视频异常理解领域，传统的帧级异常预测方法难以捕捉复杂且多样化的现实世界异常。为此，HIVAU-70k数据集通过引入半自动化的标注引擎，结合手动视频分割与递归自由文本标注，利用大规模语言模型（LLMs）生成高质量的多粒度标注。该数据集包含了超过70,000个多层次的标注，涵盖了从片段级、事件级到视频级的不同层次，从而有效解决了传统方法在长时视频异常理解中的局限性。

特点

HIVAU-70k数据集的显著特点在于其多粒度层次的标注结构，能够捕捉从短时到长时的异常事件。此外，数据集通过集成异常评分器与密度感知采样器，确保模型能够聚焦于异常丰富的区域，从而显著提升异常检测的效率与准确性。这种层次化的标注方式不仅增强了模型的可解释性，还为处理长时视频提供了更为精细的异常理解能力。

使用方法

使用HIVAU-70k数据集时，用户需遵循特定的数据结构，包括指令文件、原始标注文件以及视频文件。指令文件提供了训练和测试的多粒度标注，原始标注文件则包含了详细的视频异常信息。用户可以通过加载这些标注文件，结合视频数据进行模型训练或推理。此外，数据集还提供了异常聚焦的时间采样器（ATS），用户可利用该工具进行高效的异常检测，进一步提升模型的性能。

背景与挑战

背景概述

在视频异常理解（VAU）领域，传统的研究方法主要集中在帧级别的异常预测，然而，这种方法往往难以捕捉复杂且多样化的现实世界异常。为了应对这一挑战，HIVAU-70k数据集应运而生，由一支致力于长时视频异常理解的研究团队开发。该数据集通过引入半自动化的标注引擎，结合手动视频分割与递归自由文本标注，生成了超过70,000个多粒度标注，涵盖了从片段级到事件级再到视频级的多层次异常信息。这一创新不仅提升了异常检测的准确性，还显著增强了模型的可解释性，为视频异常理解领域带来了新的研究方向。

当前挑战

HIVAU-70k数据集面临的挑战主要集中在两个方面：首先，如何在多模态数据中有效捕捉和标注长时和短时的异常事件，这是一个技术上的难题，因为异常事件的多样性和复杂性要求标注系统具备高度的灵活性和准确性。其次，构建过程中，如何高效地整合手动标注与自动化标注，以确保标注质量的同时，又能大规模扩展标注数量，这也是一个重要的挑战。此外，如何在长视频中高效检测异常，同时保持高精度和低计算成本，是该数据集在实际应用中需要解决的关键问题。

常用场景

经典使用场景

HIVAU-70k数据集的经典使用场景在于其能够支持多粒度的视频异常理解。通过提供从帧级到事件级再到视频级的多层次标注，该数据集使得研究者能够在不同的时间尺度上分析和检测异常行为。这种多粒度的标注方式特别适用于处理复杂且多样化的现实世界异常情况，如长时间视频中的突发事件或逐步发展的异常行为。

解决学术问题

HIVAU-70k数据集解决了传统视频异常理解方法在处理多时间尺度异常时的局限性。传统方法通常仅关注帧级异常预测，缺乏对复杂和多样化异常行为的解释能力。该数据集通过引入多层次的标注和半自动化的标注引擎，显著提升了模型对长期和短期异常的理解能力，为视频异常检测领域提供了新的研究方向和基准。

衍生相关工作

HIVAU-70k数据集的发布催生了一系列相关的经典工作，特别是在多模态视频异常检测和长期视频理解领域。例如，基于该数据集的研究者们开发了Anomaly-focused Temporal Sampler（ATS）算法，通过自适应选择异常丰富的帧来提高检测效率和准确性。此外，该数据集还推动了视觉与语言模型在视频异常理解中的集成应用，为未来的多模态学习研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集