MEVA

arXiv2020-12-02 更新2024-06-21 收录

下载链接：

http://mevadata.org

下载链接

链接失效反馈

资源简介：

MEVA数据集是由Kitware公司创建的一个大规模多视角、多模态视频数据集，旨在支持人类活动检测的研究。该数据集包含超过9300小时的未修剪连续视频，涵盖了多样化的同步活动，包括自发背景活动。数据集内容丰富，包括38个RGB和热红外摄像头的视频、42小时的无人机拍摄视频以及演员的GPS位置数据。创建过程中，数据集通过严格的IRB监督和批准，确保了数据收集的合法性和伦理性。MEVA数据集主要应用于公共安全和安全视频数据的研究，旨在解决复杂场景下的活动检测问题。

提供机构：

Kitware公司

创建时间：

2020-12-02

AI搜集汇总

数据集介绍

构建方式

在视频监控领域，大规模多视角数据集的构建面临场景真实性与活动多样性的双重挑战。MEVA数据集通过精心设计的脚本化采集方案，在受控场地部署38台地面摄像机与两架无人机，记录约100名演员在为期三周内执行的脚本化活动与自发行为。采集过程涵盖室内外重叠与非重叠视场，同步获取RGB、热红外、无人机航拍及GPS轨迹等多模态数据，最终形成超过9300小时的原始视频素材。

使用方法

研究社区可通过公开渠道获取328小时地面摄像机视频、4.6小时无人机数据及22小时标注数据，所有数据遵循CC-BY 4.0许可协议。该数据集支持活动检测、多目标跟踪及跨模态融合等研究方向，其标注体系包含活动时间定位与参与者边界框轨迹。使用者可基于提供的相机地理配准参数实现跨视角空间关联，或利用三维场景模型进行视角几何分析，为安全监控领域的算法评估提供接近真实场景的测试基准。

背景与挑战

背景概述

在计算机视觉领域，视频活动检测作为公共安全监控的核心技术，长期面临数据稀缺与场景单一的双重制约。MEVA数据集由Kitware公司于2020年发布，旨在构建一个大规模、多视角、多模态的视频活动识别基准。该数据集通过为期三周的受控场景采集，整合了38台地面摄像机与无人机拍摄的超过9300小时未剪辑视频，并标注了37类从简单单人到复杂多人交互的活动类型。其创新性在于融合了RGB、热红外、GPS等多模态数据，同时涵盖室内外重叠与非重叠视场，为NIST ActEV挑战赛提供了关键评估资源，显著推动了安全监控场景下长时程、多目标活动检测算法的发展。

当前挑战

MEVA数据集所针对的视频活动检测任务，其核心挑战在于长时程视频中稀疏且重叠活动的精准定位与识别，尤其是在多视角、低分辨率及复杂背景干扰下的鲁棒性建模。构建过程中的挑战则体现于多维度：其一，在数据采集阶段需平衡脚本化活动的多样性与场景自然度，通过分层次的角色编排与专业演员调度，避免行为僵化并控制非参与者入镜；其二，标注环节面临活动定义歧义与时空边界模糊的难题，需设计串行审核流程与众包质量控制机制，确保超过144小时标注数据的严密性与一致性；其三，为保障数据的广泛可发布性，必须在机构审查委员会监督下完成参与者协议签署，并采用访问受控场地以规避隐私与法律风险。

常用场景

经典使用场景

在公共安全与监控视频分析领域，MEVA数据集为长时、多视角、多模态活动检测算法的开发与评估提供了核心基准。其超过9300小时的未剪辑连续视频，包含室内外38个固定摄像头与无人机视角，模拟了真实监控环境中从低活动量到高密度重叠活动的复杂场景。研究者利用其标注的144小时视频数据，涵盖37类从简单原子动作到复杂威胁性活动的类型，能够系统性地训练和测试模型在时空扩展视频中识别、定位及跟踪人类行为的能力。

解决学术问题

MEVA数据集有效解决了监控视频分析中若干关键学术难题。它通过精心设计的脚本与自发活动相结合，提供了充足且多样化的活动实例，克服了以往数据集活动样本稀疏、背景数据缺失的局限。其多视角重叠与独立视场设计，支持跨摄像头目标关联与重识别研究；而热红外、无人机、GPS等多模态数据的同步采集，为多源信息融合方法提供了验证平台。该数据集显著推动了在复杂真实场景下，对长时、密集、重叠活动的鲁棒检测与理解算法的进展。

实际应用

MEVA数据集的设计紧密贴合公共安全领域的实际需求，其应用场景直接指向智能视频监控系统的研发与评估。例如，在大型公共场所如交通枢纽、体育场馆或城市广场，系统需要从海量、持续的监控视频流中自动检测异常行为（如遗弃包裹、盗窃）或特定活动（如人员聚集、车辆异常停靠）。MEVA提供的多视角、多天气条件、包含大量自然背景干扰的数据，能够帮助训练和测试系统在实际部署环境下的性能，减少误报与漏报，提升监控效率与自动化水平。

数据集最近研究