Action Recognition in the Dark (ARID)

Name: Action Recognition in the Dark (ARID)
Creator: 南洋理工大学电气与电子工程学院
Published: 2022-08-19 13:41:15
License: 暂无描述

arXiv2022-08-19 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2006.03876v4

下载链接

链接失效反馈

官方服务：

资源简介：

ARID数据集由南洋理工大学电气与电子工程学院创建，是首个专注于暗视频中人类动作识别的数据集。该数据集包含3784个视频片段，涵盖11种常见的人类动作类别，如跳跃、跑步、站立等。数据收集过程严格在夜间进行，使用三种不同的商业摄像机，并涉及11名志愿者在多种室内外场景中进行拍摄。ARID数据集的创建旨在解决现有动作识别数据集主要集中在正常光照条件下视频的问题，特别是在夜间监控和自动驾驶等场景中的应用。该数据集的分析表明，当前的动作识别模型和帧增强方法在暗视频中的表现并不理想，需要进一步的研究和改进。

ARID dataset was developed by the School of Electrical and Electronic Engineering, Nanyang Technological University, and it represents the first dataset dedicated to human action recognition in dark videos. This dataset comprises 3,784 video clips, encompassing 11 common human action categories including jumping, running, standing, and others. The data collection process was strictly carried out at night, utilizing three distinct commercial cameras, and involved 11 volunteers executing actions across a variety of indoor and outdoor scenarios. The creation of the ARID dataset aims to resolve the problem that most existing action recognition datasets primarily focus on videos captured under normal lighting conditions, particularly for applications in night surveillance, autonomous driving, and similar scenarios. Analysis of the ARID dataset demonstrates that current action recognition models and frame enhancement methods exhibit unsatisfactory performance when processing dark videos, thus requiring further research and improvement.

提供机构：

南洋理工大学电气与电子工程学院

创建时间：

2020-06-06

搜集汇总

数据集介绍

构建方式

在低光照环境下的动作识别研究长期受限于真实暗光视频数据的匮乏，ARID数据集的构建旨在填补这一空白。该数据集通过严格在夜间时段采集，使用三款市售相机在多样化的室内外场景中录制，涵盖停车场、走廊、教室等18处不同光照条件的场地。数据收集过程涉及11位志愿者执行11类常见人体动作，总计生成超过3780个视频片段，每个片段均以30帧率、320×240分辨率保存，并采用DivX编解码器压缩为AVI格式。为确保数据的代表性与泛化能力，视频按动作类别分组，每组包含至少7个片段，并依据场景光照或演员身份进行划分，最终通过随机分配组别形成训练集与测试集，构建了首个专注于暗光环境下人体动作识别的真实视频数据集。

特点

ARID数据集的核心特点在于其真实暗光视频所呈现的低亮度与低对比度特性，这些特性难以通过合成暗光视频完全复现。数据集包含11类动作，分为单人动作（如跳跃、行走）及涉及物体的动作（如饮水、推动），每类动作至少包含110个视频片段，总计持续约8721秒。视频帧在RGB和亮度直方图上表现出像素值高度集中于低值区域，反映出暗光环境下视觉信息的显著缺失。与合成暗光数据集相比，ARID的背景像素分布更为集中，避免了正常光照视频中高亮背景带来的对比度失真，从而更真实地模拟了夜间监控、自动驾驶等实际场景中面临的视觉挑战。

使用方法

ARID数据集为暗光动作识别任务提供了基准评估平台，支持主流动作识别模型的性能测试与比较。研究中使用双流网络（如VGG-TS、I3D-TS）和3D-CNN模型（如C3D、3D-ResNext-101）进行实验，输入帧序列通常采样16帧并调整至224×224分辨率。数据集采用分组划分策略，生成三个训练-测试分割以确保评估的稳健性。此外，研究探索了帧增强方法（如GIC、LIME、KinD）对识别精度的影响，通过对比原始视频与增强后视频的分类结果，揭示了暗光视频中模型注意力偏移、轮廓模糊等关键问题。该数据集的使用不仅推动了暗光动作识别算法的开发，也为跨域适应、特征可视化等深入研究提供了数据基础。

背景与挑战

背景概述

随着自动行为识别技术在夜间监控、自动驾驶等低光照场景中的需求日益增长，传统基于正常光照视频的行为识别模型面临严峻挑战。为填补该领域数据空白，南洋理工大学与英伟达人工智能技术中心的研究团队于2022年共同创建了首个专注于暗光环境的行为识别数据集ARID。该数据集包含11类常见人类行为的3780个视频片段，通过严格在夜间场景采集真实低光照视频，突破了传统数据集依赖网络视频导致的照明条件局限。其创新性在于首次系统化构建了暗光行为分析的基准数据，为低照度计算机视觉研究提供了关键基础设施，推动了夜间监控、智能安防等领域的技术发展。

当前挑战

该数据集致力于解决暗光环境下人类行为识别的核心难题，其挑战主要体现在两方面：在领域问题层面，暗光视频固有的低亮度与低对比度特性导致动作轮廓模糊、时空特征提取困难，现有基于正常光照训练的行为识别模型平均准确率下降超过25%；在构建过程中，需克服真实暗光场景的物理限制，包括避免直射光源干扰、保证动作多样性，并验证合成暗光视频无法复现真实场景的低对比度分布特性。实验表明，传统帧增强方法可能破坏视频原始分布，而主流三维卷积网络难以有效聚焦暗光视频中的动作主体，这揭示了开发新型暗光自适应识别框架的迫切性。

常用场景

经典使用场景

在计算机视觉领域，夜间环境下的行为识别一直是极具挑战性的研究方向。ARID数据集作为首个专注于黑暗视频中人类行为识别的基准数据集，其经典使用场景在于为研究者提供了一个真实且标准化的测试平台，用于评估和优化各类行为识别模型在低光照条件下的性能。该数据集通过包含超过3,780个视频片段和11个动作类别，涵盖了室内外多种真实黑暗场景，使得模型能够在接近实际应用的环境中接受训练与验证，从而推动夜间行为识别技术的实质性进展。

解决学术问题

ARID数据集有效解决了行为识别研究中长期存在的低光照数据匮乏问题。传统行为识别数据集如Kinetics、HMDB51等主要采集自正常光照下的网络视频，导致现有模型在黑暗环境中表现显著下降。该数据集通过提供真实黑暗视频，揭示了低亮度与低对比度的核心特征，这些特征无法通过合成黑暗视频完全模拟。此外，ARID数据集帮助学术界深入探究了帧增强方法在黑暗视频中的局限性，部分增强技术甚至可能引入噪声或破坏原始像素分布，从而降低模型性能。这些发现促使研究者重新思考黑暗环境下行为识别的本质挑战，并推动开发更鲁棒的模型架构。

衍生相关工作

自ARID数据集发布以来，已衍生出多项经典研究工作，主要集中在黑暗视频增强与跨域行为识别方向。部分研究尝试结合生成对抗网络（GAN）进行黑暗视频的语义增强，以提升模型对低对比度特征的提取能力；另一些工作则探索了域自适应方法，利用合成黑暗视频的大规模数据对模型进行预训练，再通过ARID数据集进行微调，以缓解真实黑暗数据不足的问题。此外，基于ARID数据集的基准测试推动了新型网络架构的发展，如专注于时空特征融合的黑暗视频专用识别模型，这些模型通过引入注意力机制或光流优化，显著提升了在低光照条件下的分类准确率。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集