ERA (Event Recognition in Aerial videos)

Name: ERA (Event Recognition in Aerial videos)
Creator: 德国航空航天中心（DLR）和慕尼黑工业大学（TUM）
Published: 2020-06-25 18:23:08
License: 暂无描述

arXiv2020-06-25 更新2024-06-21 收录

下载链接：

https://lcmou.github.io/ERA Dataset/

下载链接

链接失效反馈

官方服务：

资源简介：

ERA数据集是由德国航空航天中心和慕尼黑工业大学创建的一个大规模、人标注的航空视频数据集，包含2,864个视频，每个视频对应一个5秒内展开的事件，共有25个不同类别。数据集视频来源于YouTube，设计具有显著的类内变化和类间相似性，捕捉了各种环境和尺度下的动态事件。ERA数据集旨在促进自动航空视频理解系统的进一步发展，特别是在事件识别领域，为现有深度网络提供了一个基准。

The ERA dataset is a large-scale, human-annotated aviation video dataset developed by the German Aerospace Center and the Technical University of Munich. It consists of 2,864 videos, each corresponding to an event unfolding within 5 seconds, with a total of 25 distinct categories. The videos in the dataset are sourced from YouTube, and it is designed with significant intra-class variation and inter-class similarity, capturing dynamic events across diverse environments and scales. The ERA dataset aims to promote further advancements in automated aviation video understanding systems, particularly in the field of event recognition, and serves as a benchmark for existing deep neural networks.

提供机构：

德国航空航天中心（DLR）和慕尼黑工业大学（TUM）

创建时间：

2020-01-30

搜集汇总

数据集介绍

构建方式

随着无人机技术的广泛应用，海量航拍视频的涌现使得人工筛查与内容理解变得不切实际，自动解析航拍视频的方法研究显得至关重要。ERA数据集的构建始于从YouTube平台收集候选长视频，通过解析视频元数据并结合搜索引擎爬取，初步筛选出1120个长视频。为确保数据来源的纯粹性，研究团队在搜索时加入了无人机相关关键词以排除非无人机拍摄内容。随后，标注人员从这些长视频中定位并裁剪出持续5秒的片段，这一时长对应于人类短期记忆的最小持续时间。整个标注过程采用三轮独立验证机制，由三位标注者依次进行初步标注、调整优化及最终筛查，以消除内容高度相似的视频并确认拍摄视角，总计耗时约290小时，最终形成了包含2864个视频的数据集。

特点

ERA数据集在设计上致力于捕捉真实世界中的动态事件，其显著特点在于类内差异显著而类间相似性较高，涵盖了从自然灾害到社会活动等25个不同类别的事件。这些视频片段均以640x640像素的空间分辨率呈现，帧率为24fps，持续时间为5秒，确保了时间与空间维度的一致性。数据集不仅包含高质量航拍视频，还纳入了极端光照、恶劣天气及低分辨率等挑战性条件下的样本，从而模拟了实际应用场景中的复杂情况。与以往受控环境下采集的小规模数据集相比，ERA以其相对较大的规模与多样性，为航拍视频事件识别任务提供了更为全面和现实的基准。

使用方法

在模型训练与评估方面，ERA数据集为航拍视频事件识别任务提供了系统的实验框架。研究团队将数据集划分为训练集与测试集，遵循同一长视频裁剪出的片段归入同一集合的原则，以评估模型的泛化能力。基准实验涵盖单帧分类与视频分类两种范式：单帧分类模型仅选取视频中间帧作为输入，而视频分类模型则利用多帧时序信息。评估指标采用每类精确率与整体准确率，通过对VGG、ResNet、DenseNet等经典网络以及C3D、I3D、TRN等视频模型的广泛验证，为后续研究确立了性能基准。数据集及相关模型已公开提供，支持研究者进一步探索时序事件定位、多属性学习等延伸任务。

背景与挑战

背景概述

随着无人机技术的普及，海量航拍视频数据的自动理解成为遥感与计算机视觉领域的关键课题。ERA（Event Recognition inerial videos）数据集由德国航空航天中心（DLR）与慕尼黑工业大学（TUM）的研究团队于2020年创建，旨在推动无约束航拍视频中事件识别方法的发展。该数据集包含从YouTube收集的2,864段五秒视频，涵盖灾害、交通、体育等25类动态事件，其设计强调类内差异与类间相似性，以模拟真实场景的复杂性。ERA的建立填补了航拍视频事件识别基准数据的空白，为自动视频解析系统提供了重要支撑。

当前挑战

ERA数据集致力于解决航拍视频中复杂动态事件的识别问题，其核心挑战在于模型需克服显著类内变异与类间相似性，例如区分外观相近的‘耕作’与‘收割’事件。构建过程中，研究团队面临数据规模相对有限、类别分布不均衡以及‘非事件’类别的引入所带来的判别难度。此外，数据源自网络视频，需应对低分辨率、极端光照与恶劣天气等真实场景干扰，这些因素共同构成了对模型泛化与鲁棒性的严峻考验。

常用场景

经典使用场景

在遥感与计算机视觉交叉领域，无人机视频数据的自动理解正成为研究热点。ERA数据集作为首个大规模、多类别的空中视频事件识别基准，其经典使用场景在于为深度学习模型提供训练与评估平台，涵盖从自然灾害到社会活动的25类动态事件。研究者利用该数据集验证单帧分类与视频分类网络的性能，探索时空线索在事件识别中的作用，从而推动自动视频解析技术的发展。

衍生相关工作

基于ERA数据集，后续研究在时空建模与跨域适应方面涌现出多项经典工作。例如，学者们改进TRN等时序推理网络，以更好地捕捉空中事件的动态特征；亦有工作探索多任务学习框架，结合事件定位与属性分析提升视频理解深度。这些衍生研究不仅拓展了数据集的标注维度，还推动了遥感与计算机视觉社区在视频语义解析领域的协同创新。

数据集最近研究