Atypical Video Dataset

Name: Atypical Video Dataset
Creator: 山东大学信息科学与工程学院
Published: 2025-08-30 00:43:19
License: 暂无描述

arXiv2025-08-30 更新2025-09-03 收录

下载链接：

https://julysun98.github.io/atypical_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了一个名为“异常视频数据集”的新视频数据集，包含7,818个视频片段，涵盖了科幻、动画、异常、无意和超现实等多种类型的非典型数据。数据集由多个来源组成，包括YouTube电影预告片、动画预告片、舞台表演视频、现有的异常检测数据集以及合成场景数据集。该数据集旨在支持开放世界学习研究，并用于研究如何利用非典型数据来增强模型的泛化能力。

提供机构：

山东大学信息科学与工程学院

创建时间：

2025-08-30

搜集汇总

数据集介绍

构建方式

在视频理解领域，传统数据集通常聚焦于封闭世界中的常见人类活动，而非常规视频数据集则致力于捕捉开放世界中罕见或非典型的视觉内容。该数据集通过多源异构数据整合构建，涵盖科幻电影、动画、异常行为、意外事件及超现实主义合成场景等七个子类别。数据来源于YouTube影视预告片及现有专业数据集（如Oops Dataset、UCF-Crime等），经过严格的预处理流程：对现有数据集样本进行5-10秒片段切割，对网络视频采用2-6秒分段策略，并实施人工过滤以确保内容相关性与质量。最终形成包含7,818个视频样本的集合，平均时长5.7秒，每个样本均标注其语义类别与视觉特征。

特点

该数据集的核心特征体现在其语义多样性与分布异质性。相较于Kinetics-400等传统动作识别数据集呈现的集中分布，本数据集通过UMAP降维可视化与信息熵计算展现出更分散的特征分布（熵值6.5），覆盖科幻特效、动画渲染、现实异常等跨维度视觉模式。其内容既包含物理世界中的非常规行为（如滑倒、盗窃），也囊括虚拟世界的超现实动作（如反重力飞行、心灵感应），这种多模态特性为模型提供了跨越现实-虚拟界限的连续语义空间。数据统计显示各类别时长分布差异显著（科幻类平均4秒，意外事件类达9.77秒），进一步增强了时序建模的挑战性。

使用方法

该数据集主要服务于开放世界视频理解的三大核心任务：分布外检测（OOD）、新类别发现（NCD）和零样本动作识别（ZSAR）。在OOD检测中，数据集作为辅助异常样本参与训练，通过异常暴露机制提升模型对未知分布的敏感性；在NCD任务中，其多样本类别可作为自监督预训练素材，通过对比学习增强特征判别力；在ZSAR场景下，数据集提供跨域语义线索，支撑视觉-语言模型的跨模态对齐。具体实施时需采用动态采样策略保持数据量均衡，并搭配ResNet3D-50或TimeSformer等骨干网络，通过特征熵最大化损失优化模型开放域泛化能力。

背景与挑战

背景概述

Atypical Video Dataset由伯明翰大学与山东大学联合团队于2025年创建，旨在探索非典型视频对开放世界视觉表征学习的价值。该数据集包含7,818个涵盖科幻、动画、异常行为等非现实场景的视频片段，突破了传统动作识别数据集局限于常见人类活动的范式。其核心研究在于验证非常规视觉内容能否增强模型在分布外检测、新类别发现和零样本动作识别任务中的泛化能力，为开放世界视频理解提供了新的数据范式和理论基础。

当前挑战

该数据集主要解决开放世界视频理解中模型对非常规内容的泛化能力不足问题。构建挑战包括：需从多源异构数据（YouTube影音、异常检测数据集等）筛选语义非常规内容；消除与现有数据集的类别重叠以保证评估有效性；保持非现实场景与真实世界动作间的语义关联性以支持迁移学习。此外，需平衡各类非典型内容的数量分布，确保数据集的多样性和代表性。

常用场景

经典使用场景

在开放世界视频理解研究中，Atypical Video Dataset被广泛用于探索非典型视频数据对模型泛化能力的增强作用。该数据集通过整合科幻、动画、异常行为等非常规视觉内容，为模型提供了超越传统封闭集分布的多样化训练样本，尤其在处理分布外检测任务时，其丰富的语义多样性能够显著提升模型对未知场景的识别鲁棒性。

解决学术问题

该数据集有效解决了开放世界学习中的三大核心问题：分布外检测中模型对未知数据的敏感度不足、新类别发现任务中无标注数据的聚类挑战，以及零样本动作识别中跨类别语义迁移的困难。通过引入非常规视频内容，它推动了模型从封闭集向开放环境的适应性演进，为计算机视觉领域提供了新的泛化能力评估基准。

衍生相关工作

基于该数据集衍生的研究包括OpenMix提出的已知与未知数据混合训练策略、NovelCraft针对游戏场景的开放世界发现框架，以及ActionCLIP拓展的跨模态零样本识别方法。这些工作共同推进了开放世界学习范式的演进，特别是在多模态语义对齐和动态类别增量学习方面形成了重要技术路线。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集