UESTC-MMEA-CL

arXiv2025-09-30 收录

活动识别

持续学习

数据链接：

https://ivipclab.github.io/publication_uestc-mmea-cl/mmea-cl/数据链接链接失效反馈

官方服务：

资源简介：

该数据集是首个用于持续自我中心活动识别的多模态数据集，它由参与者佩戴智能眼镜所收集的视频和传感器数据构建而成。此外，该数据集还建立了CEAR基准，并包含了三种基本的持续学习（CL）方法。数据规模覆盖了十位参与者的数据收集，其任务专注于持续的自我中心活动识别。

This dataset is the first multimodal dataset dedicated to continuous egocentric activity recognition. It is constructed from video and sensor data collected by participants wearing smart glasses. Additionally, this dataset establishes the CEAR benchmark and includes three fundamental Continual Learning (CL) methods. The dataset encompasses data from ten participants, with its tasks focused on continuous egocentric activity recognition.

搜集汇总

数据集介绍

构建方式

随着可穿戴摄像设备的普及，第一人称视角视频的大规模采集成为可能，但有限视野、遮挡与不稳定运动给活动识别带来挑战。为弥补现有数据集在多模态持续学习研究中的空白，我们提出了UESTC-MMEA-CL数据集。该数据集由自主研发的智能眼镜采集，集成了第一人称摄像头与惯性测量单元，能够同步记录视频、加速度计与陀螺仪数据。采集过程分为设备配置与数据后处理两步：摄像头以640×480分辨率、25帧/秒采集视频，传感器以25Hz采样率工作，并通过时间延迟校正实现多模态数据同步。十名受试者佩戴眼镜在自然场景下执行32类日常活动，每类活动约含200个样本，总时长超过30小时。

特点

UESTC-MMEA-CL数据集在多个维度展现出独特优势。首先，它是首个专为持续学习场景设计的多模态第一人称活动识别数据集，将32类活动划分为渐进式任务序列，以支持灾难性遗忘问题的系统研究。其次，数据采集设备为集成式智能眼镜，相较于分离式摄像头与传感器方案，更贴近真实可穿戴应用场景，且视频与传感器数据具有高度时间同步性。此外，传感器数据的统计分析揭示了加速度与陀螺仪信号在不同活动中的运动强度差异（相关系数r=0.78），表明传感器模态能为视觉信息提供互补的运动与方向线索，助力提升识别鲁棒性。

使用方法

该数据集的使用方法围绕持续学习任务展开。用户可将32个活动类别按需划分为不同数量的增量步骤（如2、4或8类/步），以构建持续学习场景。每个样本包含同步的视频片段、加速度序列与陀螺仪序列，支持单模态或多模态组合输入。基准实验基于Temporal Binding Network架构，采用BN-Inception提取视觉特征、卷积与LSTM网络处理传感器信号，并通过中融合策略聚合多模态特征。在持续学习评估中，可选用EWC、LwF或iCaRL等方法，结合重放缓冲区存储旧类样本，以缓解灾难性遗忘。推荐使用PyTorch与PyCIL工具包实现模型训练与评测。

背景与挑战

背景概述

随着可穿戴摄像头的飞速发展，海量第一人称视角的自我中心视频为人类视觉感知提供了新的数据来源。然而，由于视野受限、遮挡频繁以及运动不稳定等固有缺陷，基于自我中心视频的日常活动识别面临严峻挑战。近年来，多模态数据（如视觉与惯性传感器）的融合被证实能有效提升活动识别的鲁棒性，但相关数据集的匮乏严重制约了该领域深度学习方法的进步。在此背景下，电子科技大学徐林峰等研究人员于2023年提出了UESTC-MMEA-CL数据集，旨在解决多模态自我中心活动识别中的灾难性遗忘问题。该数据集由自研智能眼镜采集，包含10名受试者在32种日常活动中的同步视频、加速度计和陀螺仪数据，总时长超过30小时。作为首个专为持续学习设计的多模态自我中心活动数据集，它为探索多模态融合下的灾难性遗忘机制提供了重要基准，有望推动可穿戴设备上持续学习算法的研究与应用。

当前挑战

该数据集所解决的领域问题核心在于多模态自我中心活动识别中的灾难性遗忘。在持续学习场景下，当模型按顺序学习多个活动类别时，其在旧任务上的性能会因参数被新任务覆盖而急剧下降，这一现象在融合视觉与惯性传感器数据时尤为严重。实验表明，仅使用RGB模态时遗忘率较低，但引入加速度和陀螺仪数据后，多模态网络的遗忘问题反而加剧，表明辅助传感器虽能提升静态识别精度，却在持续学习中引入了更复杂的参数干扰。在数据集构建过程中，挑战体现在多模态数据的精确同步与噪声处理上。由于加速度计和陀螺仪对运动噪声敏感，研究者需采用中值滤波等方法去除异常值，并通过梯形积分修正陀螺仪的漂移误差，以确保视觉与传感器数据在时间窗口内严格对齐。此外，如何合理划分32个活动类别为持续学习任务序列，以模拟真实可穿戴设备中的增量学习场景，也是构建过程中的关键设计难题。

常用场景

经典使用场景

UESTC-MMEA-CL数据集的核心经典使用场景在于面向可穿戴设备的持续自我中心活动识别。该数据集通过自研智能眼镜同步采集视频、加速度计和陀螺仪三种模态数据，覆盖32种日常活动，为研究者在连续学习框架下探索多模态融合的自我中心活动识别提供了标准化平台。其典型应用是模拟可穿戴设备在真实环境中逐步接收新任务的过程，评估模型在增量学习中的表现。

衍生相关工作

该数据集衍生了一系列经典工作，主要集中在多模态连续学习基准的建立与遗忘抑制方法的探索。例如，研究者基于UESTC-MMEA-CL评估了iCaRL、EWC和LwF等主流连续学习策略在不同模态组合下的表现，发现基于样本回放的iCaRL能显著缓解多模态融合网络的遗忘问题，而传感器模态（加速度、陀螺仪）的遗忘程度远高于视觉模态。这些工作揭示了多模态连续学习中的模态不平衡挑战，并催生了针对传感器分支的专用正则化与蒸馏方法的研究方向。

数据集最近研究