VANE-Bench

Hugging Face2024-06-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/rohit901/VANE-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VANE-Bench是一个精心策划的基准数据集，旨在评估大型多模态模型（LMMs）在视频异常检测和理解任务上的性能。该数据集包含一系列多样化的视频片段，分为AI生成和真实世界异常两大类，每帧信息和相关问答对，以促进对模型能力的稳健评估。

VANE-Bench is a curated benchmark dataset designed to evaluate the performance of Large Multimodal Models (LMMs) on video anomaly detection and understanding tasks. This dataset includes a diverse set of video clips categorized into two major classes: AI-generated anomalies and real-world anomalies, along with per-frame information and corresponding question-answer pairs, to facilitate robust evaluation of model capabilities.

创建时间：

2024-06-12

原始信息汇总

数据集概述

数据集信息

特征（Features）:
- frame_0 至 frame_9: 图像数据类型（image）
- category: 字符串类型（string），视频主类别（AI-Generated, Real-World）
- sub_category: 字符串类型（string），特定异常数据类别（如 SORA, UCFCrime, Avenue 等）
- video_folder: 字符串类型（string），包含视频帧的文件夹
- question: 字符串类型（string），与视频异常相关的问题
- answer: 字符串类型（string），问题的对应答案
数据分割（Splits）:
- train: 训练集，包含 559 个样本，数据大小为 746196621 字节
下载大小（Download Size）: 367938984 字节
数据集大小（Dataset Size）: 746196621 字节
配置（Configs）:
- default: 数据文件路径为 data/train-*
任务类别（Task Categories）:
- 问答（question-answering）
- 视觉问答（visual-question-answering）
语言（Language）: 英语（en）
数据集名称（Pretty Name）: VANE-Bench
大小类别（Size Categories）: n<1K

数据集详情

类别（Categories）:
- AI-Generated
- Real-World
子类别（Sub-Categories）:
- Avenue, UCFCrime, UCSD-Ped1, UCSD-Ped2, ModelScopeT2V, SORA, OpenSORA, Runway Gen2, VideoLCM
AI-Generated 异常类别（AI-Generated Anomaly Categories）:
- 不自然的变换（unnatural transformations）
- 不自然的外观（unnatural appearance）
- 穿透（pass-through）
- 消失（disappearance）
- 突然出现（sudden appearance）
Real-World 异常类别（Real World Anomaly Categories）:
- 逮捕（Arrest）
- 攻击（Assault）
- 盗窃（Stealing）
- 投掷（Throwing）等
数据（Data）:
- 每个视频片段包含帧级数据和详细的问答对，以挑战对话式大型多模态模型（LMMs）在理解和响应视频异常方面的能力。

使用数据集

HuggingFace: python from datasets import load_dataset dataset = load_dataset("rohit901/VANE-Bench")
Zip 文件:
- 下载链接: VQA_Data.zip
- 文件结构:
  
  VQA_Data/ |–– Real World/ | |–– UCFCrime | | |–– Arrest002 | | |–– Arrest002_qa.txt | | |–– ... # remaining video-qa pairs | |–– UCSD-Ped1 | | |–– Test_004 | | |–– Test_004_qa.txt | | |–– ... # remaining video-qa pairs ... # remaining real-world anomaly dataset folders |–– AI-Generated/ | |–– SORA | | |–– video_1_subset_2 | | |–– video_1_subset_2_qa.txt | | |–– ... # remaining video-qa pairs | |–– opensora | | |–– 1 | | |–– 1_qa.txt | | |–– ... # remaining video-qa pairs ... # remaining AI-generated anomaly dataset folders

搜集汇总

数据集介绍

构建方式

VANE-Bench数据集通过精心挑选和分类视频片段构建而成，涵盖了AI生成和现实世界中的异常事件。每个视频片段包含10个连续帧，并附有详细的问答对，旨在评估大型多模态模型在视频异常检测和理解任务中的表现。数据集的构建过程包括从多个公开数据源收集视频，如UCFCrime、UCSD-Ped1等，并对这些视频进行帧级标注和问答对的生成，以确保数据的多样性和挑战性。

特点

VANE-Bench数据集的主要特点在于其多样化的视频类别和子类别，涵盖了从AI生成的异常（如不自然的变换、突然出现等）到现实世界中的异常事件（如逮捕、袭击等）。每个视频片段不仅包含帧级数据，还配备了详细的问答对，这些问答对旨在挑战模型在理解和响应视频异常时的能力。此外，数据集的问答对设计使得模型能够在多样化的上下文中进行测试，从而全面评估其性能。

使用方法

VANE-Bench数据集可以通过HuggingFace平台直接加载，使用`load_dataset`函数即可获取数据集。数据集中的每个样本包含10个连续帧、视频类别、子类别、视频文件夹路径以及相关的问答对。用户可以通过分析这些帧和问答对，评估模型在视频异常检测和理解任务中的表现。此外，数据集还提供了zip文件下载选项，用户可以直接下载并解压使用，文件结构清晰，便于进一步的分析和处理。

背景与挑战

背景概述

VANE-Bench是由Rohit Bharadwaj、Hanan Gani等研究人员于2024年推出的视频异常检测与理解基准数据集，旨在评估大型多模态模型（LMMs）在视频异常检测任务中的表现。该数据集涵盖了AI生成和真实世界两类异常视频，包含帧级信息和问答对，为模型在复杂场景下的理解与响应能力提供了全面的评估框架。VANE-Bench的推出填补了多模态模型在视频异常检测领域的评估空白，推动了相关技术的发展与应用。

当前挑战

VANE-Bench面临的挑战主要体现在两个方面：一是视频异常检测任务本身的复杂性，包括对异常行为的精准识别与分类，尤其是在AI生成视频中，异常可能表现为非自然的变换或突然出现，这对模型的感知与推理能力提出了极高要求；二是数据集的构建过程中，如何确保视频数据的多样性与标注的准确性，尤其是在真实世界异常场景中，异常行为的定义与标注需要高度的领域专业知识，这对数据收集与处理提出了严峻挑战。

常用场景

经典使用场景

VANE-Bench数据集在视频异常检测与理解任务中展现了其独特的价值。通过提供包含AI生成和真实世界异常的视频片段，数据集为研究人员提供了一个全面的评估平台。每个视频片段都配备了帧级数据和详细的问答对，使得模型能够在多样化的上下文中理解和响应视频异常。这种设计不仅提升了模型的泛化能力，还为多模态模型的性能评估提供了标准化的基准。

衍生相关工作

VANE-Bench数据集的发布推动了多模态模型在视频异常检测领域的研究进展。基于该数据集，许多经典工作得以展开，如模型在AI生成异常和真实世界异常中的性能对比研究，以及问答对在提升模型理解能力方面的应用探索。这些研究不仅丰富了视频异常检测的理论基础，还为实际应用中的模型优化提供了宝贵的经验。

数据集最近研究