NTU RGB+D 数据集, SHREC-2017 数据集

Name: NTU RGB+D 数据集, SHREC-2017 数据集
Creator: 卡内基梅隆大学, 美国; Meta Reality Labs; 印度理工学院, 海得拉巴
Published: 2025-04-25 12:11:24
License: 暂无描述

arXiv2025-04-25 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2504.18059v1

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了一种名为 POET 的方法，用于解决隐私保护下的少样本持续动作识别问题。POET 方法在骨架动作识别领域取得了突破，通过提出一种新的时空学习提示偏移调优方法，实现了在不存储用户敏感训练数据的情况下，持续地为用户设备模型添加新的动作类别。本文贡献了两个新基准数据集：NTU RGB+D 数据集用于活动识别，SHREC-2017 数据集用于手势识别。实验结果表明，POET 方法在持续动作识别任务上取得了显著的性能提升。

This paper introduces a method named POET for addressing the few-shot continual action recognition problem under privacy protection constraints. The POET method achieves a breakthrough in the field of skeleton-based action recognition. By proposing a novel spatio-temporal learning prompt offset tuning approach, it enables continual addition of new action categories to user-side device models without storing users' sensitive training data. This work contributes two novel benchmark datasets: the NTU RGB+D dataset for activity recognition and the SHREC-2017 dataset for gesture recognition. Experimental results demonstrate that the POET method achieves significant performance improvements on the continual action recognition task.

提供机构：

卡内基梅隆大学, 美国; Meta Reality Labs; 印度理工学院, 海得拉巴

创建时间：

2025-04-25

搜集汇总

数据集介绍

构建方式

NTU RGB+D和SHREC-2017数据集的构建采用了多模态传感器融合技术，通过Microsoft Kinect V2和Intel Real Sense Depth传感器分别捕捉人体25关节点和手部22关节点的三维空间坐标序列。数据集构建过程严格遵循时空对齐原则，NTU RGB+D包含40,320个训练样本和16,560个测试样本，覆盖60类日常行为；SHREC-2017则包含1,980训练样本和840测试样本，专注14类精细手势。数据采集采用多视角策略，NTU RGB+D通过三视角拍摄确保动作多样性，所有样本均经过专业标注和时空归一化处理。

使用方法

使用本数据集需遵循时空图神经网络处理范式：首先将骨骼序列建模为时空图结构，顶点代表关节点，边表征物理连接或时空相关性。建议采用分层处理策略：(1)通过CTR-GCN等架构提取时空特征，(2)应用POET的提示偏移调优机制进行持续学习，(3)采用余弦分类器缓解新旧类不平衡。对于增量学习场景，建议划分40/20类(NTU)和8/6类(SHREC)作为基础/增量类，每个新类仅用5个样本进行提示调优。重要提示：使用时应保持输入维度与原始论文一致，NTU需64帧输入，SHREC需8帧输入。

背景与挑战

背景概述

NTU RGB+D和SHREC-2017数据集是面向三维骨架动作识别领域的重要基准数据集。NTU RGB+D由微软Kinect V2传感器采集，包含60类日常活动、健康相关动作及互动行为，其大规模样本量（56,880个样本）和多视角特性为动作识别研究提供了丰富数据基础。SHREC-2017专注于细粒度手势识别，通过Intel RealSense深度传感器捕获14类手势，具有精确的22个手部关节点标注。这两个数据集均由国际顶尖研究团队构建，前者由新加坡南洋理工大学团队于2016年发布，后者源自2017年Eurographics研讨会。它们通过将复杂的人体运动抽象为时空图结构，为基于图神经网络的动作识别算法提供了标准化评估平台，显著推动了隐私保护、低样本学习等新兴研究方向的发展。

当前挑战

该领域面临双重挑战：在算法层面，骨架数据的时空异质性导致传统卷积网络难以有效建模长程依赖关系，且细粒度动作类别间存在高度相似性（如SHREC中不同挥动手势）。数据集构建过程中，多传感器同步校准、遮挡关节点的补全、以及跨被试动作差异的标准化处理构成主要技术难点。特别在持续学习场景下，模型需解决灾难性遗忘与样本效率的固有矛盾——POET论文揭示，当仅用5个样本学习新动作类时，传统方法在NTU RGB+D上的旧类准确率会骤降37.4%。此外，隐私约束禁止存储历史数据的要求，使得基于回放的持续学习方法完全失效，这迫使研究者开发全新的无数据知识保留机制。

常用场景

经典使用场景

NTU RGB+D和SHREC-2017数据集在人体动作识别领域具有广泛应用，尤其在基于骨骼数据的动作分类任务中表现卓越。NTU RGB+D数据集因其丰富的动作类别和多样化的视角，常被用于评估模型在复杂场景下的泛化能力。SHREC-2017数据集则专注于精细的手势识别，为手势交互研究提供了高精度基准。这两个数据集通过提供3D骨骼坐标序列，支持时空图神经网络（如CTR-GCN和DG-STA）建模动作的时空动态特征。

解决学术问题

这两个数据集解决了动作识别中的关键挑战：一是小样本持续学习问题，通过用户会话增量添加新类别（如NTU RGB+D的5-way 5-shot协议），验证模型在有限样本下的适应能力；二是隐私保护需求，其数据无关（data-free）特性避免了敏感训练数据的存储与回放。POET方法进一步提出时空提示偏移调优，首次将提示学习应用于图神经网络，解决了传统方法因微调导致的灾难性遗忘问题，并在基类数据预训练条件下实现了新旧类别的平衡识别。

实际应用

在扩展现实（XR）设备如Meta Quest和Apple Vision Pro中，这些数据集支持个性化动作交互系统的开发。用户可通过少量示例添加自定义动作类别（如舞蹈、滑雪），而模型通过提示池动态适应新语义，无需修改底层架构。医疗领域则利用骨骼数据的低维度优势，实现低样本条件下的康复动作监测。隐私保护机制使其适用于家庭健康监护等敏感场景，满足GDPR等法规要求。

数据集最近研究