NTU RGB+D

Name: NTU RGB+D
Creator: 南洋理工大学，新加坡
Published: 2016-04-11 14:44:53
License: 暂无描述

arXiv2016-04-11 更新2024-06-21 收录

下载链接：

http://rose1.ntu.edu.sg/datasets/actionrecognition.asp

下载链接

链接失效反馈

官方服务：

资源简介：

NTU RGB+D数据集由南洋理工大学创建，包含超过56,880个视频样本和400万帧，涉及60种不同的人类活动类别。数据集涵盖日常、互动和健康相关动作，由40名不同年龄的参与者在80个不同的摄像机视角下录制。创建过程中使用了Microsoft Kinect v2传感器，采集了RGB视频、深度序列、骨骼数据和红外帧。该数据集主要用于深度学习和3D人类活动分析，旨在通过大规模多样化的数据推动深度学习技术在人类活动识别领域的应用。

NTU RGB+D Dataset was developed by Nanyang Technological University. It contains more than 56,880 video samples and 4 million frames, covering 60 distinct human activity categories. The dataset encompasses daily, interactive, and health-related human actions, recorded by 40 participants of varying ages across 80 different camera viewpoints. The Microsoft Kinect v2 sensor was utilized during data collection to acquire RGB videos, depth sequences, skeletal data, and infrared frames. This dataset is primarily employed for deep learning and 3D human activity analysis, aiming to advance the application of deep learning technologies in the field of human activity recognition through large-scale and diverse data.

提供机构：

南洋理工大学，新加坡

创建时间：

2016-04-11

搜集汇总

数据集介绍

构建方式

在三维人体动作分析领域，数据采集的规模与多样性长期制约着深度学习方法的应用。NTU RGB+D数据集的构建采用系统性设计，通过微软Kinect v2传感器同步采集四种模态数据：RGB视频、深度序列、红外帧以及25个关键身体关节的三维坐标。数据收集过程邀请40名年龄跨度为10至35岁的参与者，在17种不同摄像机高度与距离的配置下，以三个水平视角同步录制。每个动作类别由参与者分别面向左右摄像机各执行两次，最终形成包含56,880个样本的大规模数据集，涵盖日常、健康相关及交互性动作共60类。

特点

该数据集的核心优势在于其前所未有的规模与多样性。相较于同期数据集，NTU RGB+D在样本数量、动作类别、参与者数量及摄像机视角方面均呈现数量级提升。数据集提供四种对齐的多模态数据流，其中骨骼数据包含符合人体工学的25关节拓扑结构。视角多样性通过多摄像机同步采集与空间配置变化实现，形成80种视角变体。年龄分布与动作执行风格差异引入了显著的类内变化，而明确的跨主体与跨视角评估协议则为算法鲁棒性验证提供了标准化框架。

使用方法

研究者可利用该数据集开展三维动作识别算法的训练与评估，特别适用于数据驱动的深度学习方法。数据集提供两种标准评估协议：跨主体评估将40名参与者均分为训练组与测试组，确保模型泛化至未见过的个体；跨视角评估则使用摄像机2和3的视角进行训练，以摄像机1的视角进行测试，验证模型视角不变性。多模态数据支持融合研究，骨骼数据可直接输入时序网络，深度与RGB数据可用于外观特征提取。预处理流程包括骨骼坐标系统一化、噪声骨架过滤及时间序列分段采样，为各类方法提供一致比较基准。

背景与挑战

背景概述

随着深度传感器技术的演进，三维视觉分析逐渐成为计算机视觉领域的重要研究方向。在三维人体行为识别领域，早期数据集普遍存在样本规模有限、动作类别单一、视角固定以及受试者多样性不足等问题，制约了数据驱动方法如深度学习的应用。为此，南洋理工大学的研究团队于2016年推出了NTU RGB+D数据集，该数据集包含56,880个视频样本，涵盖60类动作，由40名不同年龄的受试者在80个相机视角下完成采集。通过提供RGB、深度、红外及三维骨骼关节等多模态数据，该数据集极大地丰富了三维行为分析的资源，为跨主体和跨视角评估提供了标准化基准，推动了深度学习模型在该领域的广泛应用与发展。

当前挑战

NTU RGB+D数据集致力于解决三维人体行为识别中的核心挑战，即如何在复杂多变的现实场景中实现高精度、高鲁棒性的动作分类。具体挑战包括：动作类别的细粒度区分，尤其是日常动作、健康相关动作及交互动作之间的相似性较高；跨主体和跨视角的泛化能力，要求模型能够适应不同受试者的执行风格及多样化的相机角度；多模态数据融合的复杂性，需有效整合RGB、深度和骨骼信息以提升识别性能。在构建过程中，研究团队面临数据采集的规模与质量控制挑战，包括确保多相机同步、处理传感器噪声、维护数据标注的一致性，以及克服Kinect v2在多人场景中的跟踪误差，这些因素共同增加了数据集构建的技术难度与资源投入。

常用场景

经典使用场景

在三维人体动作识别领域，NTU RGB+D 数据集常被用作基准测试平台，以评估和比较各类深度学习模型与手工特征提取方法的性能。该数据集凭借其大规模样本量、多视角采集以及丰富的动作类别，为研究者提供了理想的实验环境，尤其在验证模型在跨主体和跨视角场景下的泛化能力方面展现出显著优势。经典使用场景包括利用循环神经网络（如LSTM及其变体）对骨架序列进行建模，以捕捉动作的时序动态特征。

衍生相关工作

NTU RGB+D 数据集的发布催生了一系列经典的相关研究工作，极大地推动了三维动作识别领域的发展。基于该数据集，研究者提出了多种创新的深度学习架构，如ST-GCN（时空图卷积网络），该网络将人体骨架建模为图结构，有效捕获了关节间的空间关系与时序动态。此外，Two-Stream Adaptive Graph Convolutional Network 等方法进一步优化了跨视角与跨主体的动作识别性能。这些衍生工作不仅显著提升了模型在NTU RGB+D上的准确率，也为后续更复杂的动作理解任务（如动作检测、动作预测）奠定了坚实的理论与技术基础。

数据集最近研究