NTU RGB+D

arXiv2025-09-30 收录

下载链接：

https://github.com/shahroudy/nturgb-d

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于识别人类动作的数据集，其中包括了红外数据流。该数据集被用于评估OKDAD架构在离线教师模型和分类性能方面的表现，任务涵盖了动作识别和早期预测。

This is a human action recognition dataset that incorporates infrared data streams. It is utilized to evaluate the performance of the OKDAD architecture in terms of offline teacher models and classification capabilities, with its tasks covering action recognition and early prediction.

搜集汇总

数据集介绍

构建方式

在三维人体活动分析领域，数据采集的规模与多样性长期制约着深度学习方法的应用。NTU RGB+D数据集的构建采用了系统化的多模态采集方案，通过部署三台Microsoft Kinect v2传感器，在17种不同空间配置下同步捕获RGB视频、深度序列、红外帧及25个关键关节点的三维骨骼数据。数据采集过程邀请了40名年龄跨度为10至35岁的受试者，每位受试者在80种相机视角下执行60类动作，涵盖日常活动、健康相关动作及交互动作，最终累积了56,880个视频样本，确保了样本在视角、人体属性及环境背景上的高度多样性。

特点

该数据集的核心特点在于其前所未有的规模与多维度的丰富性。相较于同期数据集，NTU RGB+D在样本数量、动作类别、受试者人数及相机视角数量上均呈现数量级优势，提供了超过400万帧的多模态数据。其动作类别体系设计科学，包含40类日常动作、9类健康相关动作及11类交互动作，有效模拟了真实场景中动作的复杂性与类间相似性。此外，数据集提供了严格的跨受试者与跨视角评估基准，前者将40名受试者均分为训练与测试组，后者则依据相机编号划分数据，为模型泛化能力提供了可靠验证框架。

使用方法

该数据集主要服务于基于RGB+D数据的人体动作识别研究，尤其适用于数据驱动的深度学习模型训练与评估。研究者可依据论文定义的跨受试者或跨视角评估准则划分训练集与测试集，利用提供的RGB、深度、骨骼及红外四类模态数据进行多模态融合学习或单模态分析。骨骼数据已预先转换为以人体脊柱为中心的坐标系，便于直接用于模型输入。数据集的庞大规模使得训练深度循环神经网络等复杂模型成为可能，同时其丰富的视角与人体变化为模型鲁棒性提供了严峻考验，推动了视角不变表示学习等前沿方向的发展。

背景与挑战

背景概述

随着深度传感器技术的演进，三维人体动作分析逐渐成为计算机视觉领域的研究热点。2016年，南洋理工大学与新加坡信息通信研究院的研究团队联合推出了NTU RGB+D数据集，旨在应对当时三维动作识别领域缺乏大规模、多样化基准数据的困境。该数据集通过微软Kinect v2传感器采集了涵盖60类动作的56,880个样本，包含RGB视频、深度序列、红外帧及25个关节点骨架数据，并引入了40名不同年龄、性别的受试者与80个相机视角，显著提升了数据的多样性与规模。其核心研究问题聚焦于如何利用多模态信息实现复杂人体动作的精准识别，尤其关注跨主体与跨视角的泛化能力，为后续深度学习方法的广泛应用奠定了坚实基础。

当前挑战

在三维人体动作识别领域，NTU RGB+D数据集致力于解决动作类别细粒度区分与复杂场景下鲁棒性建模的双重挑战。具体而言，数据集中包含的60类动作（如日常、互动及健康相关动作）在运动模式上存在高度相似性，要求模型能够捕捉细微的时空差异；同时，跨主体与跨视角评估需克服个体行为差异与视角变化带来的特征漂移问题。在构建过程中，研究团队面临多模态数据同步采集与校准的技术难题，包括深度图与RGB帧的对齐、骨架追踪的准确性保障，以及大规模数据存储与处理的效率优化。此外，室内场景的采集环境虽控制了传感器限制，但也引入了背景多变性与光照干扰，进一步增加了数据标注与质量控制的复杂性。

常用场景

经典使用场景

在三维人体活动分析领域，NTU RGB+D数据集作为大规模多模态基准，其经典使用场景集中于深度学习和计算机视觉算法的训练与评估。研究者常利用该数据集丰富的样本多样性，包括来自40位不同受试者的56880个视频样本，涵盖60类日常、互动及健康相关动作，通过跨主体和跨视角评估协议，系统验证动作识别模型的泛化能力与鲁棒性。

解决学术问题

该数据集有效解决了三维动作识别研究中长期存在的样本稀缺、类内变异有限及视角单一等关键学术问题。通过提供多模态数据（RGB、深度、红外及骨架序列）及80个不同摄像机视角，它支持数据驱动方法如深度学习的应用，显著提升了模型对复杂人体动作的建模精度，推动了视角不变特征表示与时空建模技术的发展。

衍生相关工作

该数据集衍生了一系列经典研究工作，尤其是基于循环神经网络的模型创新。例如，Part-aware LSTM（P-LSTM）通过分体记忆单元优化了长时序依赖建模；后续研究如Co-occurrence LSTM、图卷积网络（GCN）等进一步利用其骨架数据探索动作的结构化表征，推动了时空图网络及多模态融合方法在动作识别领域的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集