NTU-RGB+D-120

Name: NTU-RGB+D-120
Creator: 艾伦·图灵研究所
Published: 2025-05-23 23:52:31
License: 暂无描述

arXiv2025-05-23 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.18048v1

下载链接

链接失效反馈

官方服务：

资源简介：

NTU-RGB+D-120数据集是一个包含114,480个视频片段的大型3D开放数据集，涵盖了120个不同的动作类别，包括日常动作、健康相关动作和双人互动动作。该数据集是在控制环境下捕获的，具有高质量的3D骨骼分割和较少的内置偏差和混淆因素。

The NTU-RGB+D-120 dataset is a large-scale 3D open dataset consisting of 114,480 video clips, covering 120 distinct action categories including daily activities, health-related actions, and two-person interactive actions. Captured in controlled environments, this dataset features high-quality 3D skeleton segmentation and minimal inherent biases and confounding factors.

提供机构：

艾伦·图灵研究所

创建时间：

2025-05-23

搜集汇总

数据集介绍

构建方式

NTU-RGB+D-120数据集作为当前最大规模的3D骨骼动作识别基准，其构建过程体现了严谨的实验设计理念。研究团队通过微软Kinect V2深度传感器采集了114,480个视频片段，涵盖120类动作类别，包含单人人机交互、人物-物体互动及双人交互等多种场景。数据采集在受控环境下完成，106名受试者从155个不同视角执行标准化动作，每个动作类别样本量均衡分布。原始数据经过25个关节点三维坐标标注，并采用时间同步技术确保多模态数据对齐，最终形成结构化时空序列数据。

使用方法

数据集采用标准化评估协议，提供跨受试者（X-Sub）和跨场景（X-Set）两种官方划分方式，确保结果可比性。研究者可通过加载预处理后的骨骼序列数据，直接输入时空图卷积网络或Transformer架构进行训练。针对实时应用场景，论文提出三种系统化的数据降质方法：随机帧丢弃模拟网络丢包（10-90%丢弃率）、均匀降采样模拟低帧率（3-15FPS）以及连续块丢弃模拟传感器失效，用户可灵活配置不同降质参数组合。为便于性能对比，建议同时报告原始数据与降质数据下的识别准确率，并关注LogSigRNN等抗降质模型在低帧率场景的表现。

背景与挑战

背景概述

NTU-RGB+D-120数据集是由新加坡南洋理工大学的研究团队于2019年推出的，是目前最大且最详细的3D人体动作识别开源数据集。该数据集包含114,480个视频片段，覆盖120种不同的动作类别，涉及单人动作、人与物体互动以及人与人之间的互动。数据采集使用了Microsoft Kinect V2传感器的红外深度摄像头，提供了包含25个关节点的3D骨骼数据。NTU-RGB+D-120数据集在人体动作识别领域具有重要影响力，为研究者提供了一个高质量、多样化的基准测试平台，推动了基于骨骼数据的动作识别算法的发展。

当前挑战

NTU-RGB+D-120数据集面临的挑战主要包括两个方面：一是领域问题的挑战，即如何提高模型在真实世界退化场景下的鲁棒性。真实世界中的视频数据常因实时处理或资源受限硬件而出现帧丢失、采样率降低等问题，这导致模型性能显著下降。二是构建过程中的挑战，包括数据采集的复杂性、标注的高成本以及数据质量的保证。此外，该数据集还需要解决如何有效评估模型在不同退化类型（如随机采样、均匀采样和块丢失）下的性能差异，以及如何开发能够抵抗数据退化的新型模型架构。

常用场景

经典使用场景

NTU-RGB+D-120数据集在骨骼人体动作识别（SHAR）研究中占据核心地位，尤其在评估模型对现实场景中降质数据的鲁棒性方面表现突出。该数据集通过高精度的3D骨骼标注和丰富的动作类别，为研究者提供了模拟视频流降质（如帧丢失、采样率下降）的理想平台，成为验证算法在边缘计算、实时监控等受限环境下性能的黄金标准。

解决学术问题

该数据集有效解决了SHAR领域的关键学术挑战：一是系统评估了不同降质类型（随机采样、均匀采样、连续块丢失）对模型性能的差异化影响，揭示了传统随机采样评估的局限性；二是通过引入基于粗糙路径理论（Rough Path Theory）的LogSigRNN模型，在低帧率（3 FPS）场景下准确率超越当前最优模型6%，为时间序列降质鲁棒性研究提供了新范式；三是建立了首个标准化降质基准，填补了模型在真实部署场景中性能评估的空白。

实际应用

在智能监控系统中，NTU-RGB+D-120支持的降质鲁棒模型可适应CCTV常见的5-15 FPS低帧率环境；在医疗康复领域，其骨骼动作数据能精准识别跌倒等异常行为；工业人机协作场景则利用其多视角交互动作数据提升安全性。尤其值得注意的是，基于该数据集开发的插值修复技术，可将模型在90%帧丢失下的识别准确率提升40%，显著增强了边缘设备部署的可行性。

数据集最近研究