NTU RGB+D 120

Name: NTU RGB+D 120
Creator: 南洋理工大学
Published: 2019-06-10 15:04:29
License: 暂无描述

arXiv2019-06-10 更新2024-06-21 收录

下载链接：

http://rose1.ntu.edu.sg/Datasets/actionRecognition.asp

下载链接

链接失效反馈

官方服务：

资源简介：

NTU RGB+D 120是由南洋理工大学创建的大型3D人体活动理解基准数据集，包含超过114,000个视频样本和800万帧，涵盖120种不同的动作类别，包括日常、互动和健康相关活动。数据集通过106个不同的人收集，年龄跨度从10岁到57岁，来自15个不同的国家，确保了数据的多样性。创建过程中使用了Microsoft Kinect v2传感器，捕捉了RGB视频、深度序列、骨骼数据（25个主要身体关节的3D位置）和红外帧。该数据集的应用领域包括深度学习和3D视觉技术的发展，旨在解决3D人体动作识别的挑战，推动数据驱动的学习技术在人体活动理解领域的应用。

NTU RGB+D 120 is a large-scale 3D human activity understanding benchmark dataset created by Nanyang Technological University. It contains over 114,000 video samples and 8 million frames, covering 120 distinct action categories including daily, interactive and health-related activities. The dataset was collected from 106 distinct individuals aged from 10 to 57 years old, coming from 15 different countries, which ensures the diversity of the data. Microsoft Kinect v2 sensors were used during the creation process to capture RGB videos, depth sequences, skeletal data (3D positions of 25 major body joints) and infrared frames. The application fields of this dataset include the development of deep learning and 3D vision technologies, aiming to address the challenges in 3D human action recognition and promote the application of data-driven learning technologies in the field of human activity understanding.

提供机构：

南洋理工大学

创建时间：

2019-05-13

搜集汇总

数据集介绍

构建方式

在三维人体活动理解领域，NTU RGB+D 120数据集的构建体现了对大规模、多模态数据需求的深刻回应。该数据集通过微软Kinect v2传感器，系统采集了来自106名不同文化背景和年龄分布（10至57岁）的参与者的活动样本。数据采集过程在32种不同的设置下进行，每项设置采用三台相机从-45°、0°和+45°水平角度同步捕捉，同时通过调整相机高度（0.5米至2.7米）和与参与者的距离（2.0米至4.5米），实现了155种相机视角的多样性。最终，数据集涵盖了114,480个视频样本，包含120类动作，分为日常活动、健康相关活动及互动活动三大类，并提供了RGB视频、深度序列、骨架数据（25个关节点三维坐标）及红外帧四种模态，所有数据均在96种不同背景和光照条件下采集，确保了环境的高变异性。

使用方法

NTU RGB+D 120数据集为三维人体活动分析提供了标准化的评估框架。研究者可采用两种主要评估准则：跨主体评估，将106名参与者分为53人的训练组和测试组，以检验模型对不同个体的泛化能力；跨设置评估，基于32种采集设置的奇偶ID划分训练与测试集，评估模型对环境与视角变化的鲁棒性。数据集支持多模态输入，用户可单独或融合使用RGB、深度、骨架及红外数据，以探索外观与几何信息的互补性。此外，数据集适用于一系列前沿研究问题，如深度网络预训练、跨视图动作分析、互动活动理解及少样本学习，其中论文提出的动作-部位语义相关性框架为少样本三维动作识别提供了新颖思路。通过公开提供数据及详细标注，该数据集旨在推动社区在数据饥渴型学习方法上的应用与发展。

背景与挑战

背景概述

随着深度传感器技术的成熟，三维人体动作理解成为计算机视觉领域的重要研究方向。NTU RGB+D 120数据集由南洋理工大学ROSE实验室联合北京大学、查尔姆斯理工大学等机构于2019年正式发布，旨在构建大规模、多模态的RGB+D动作识别基准。该数据集包含来自106名不同文化背景、年龄跨度的受试者，涵盖120类日常、交互及健康相关动作，视频样本超过11.4万个，并提供了深度图、三维关节点、RGB视频和红外序列四种数据模态。其核心研究问题在于解决现有三维动作数据集规模有限、类目单一、视角与环境多样性不足的缺陷，为数据驱动的深度学习模型提供充足的训练资源，显著推动了跨视角、跨环境动作识别算法的发展。

当前挑战

在三维人体动作识别领域，NTU RGB+D 120数据集致力于应对动作类目细粒度区分、跨视角泛化以及多模态融合等核心挑战。具体而言，数据集中包含大量动作模式相似但涉及不同物体或速度差异的类别（如“穿鞋”与“脱鞋”），要求模型具备精细的时空特征判别能力；同时，数据采集涵盖155种相机视角与96种背景环境，模型需克服视角变化与背景干扰以实现稳健识别。在构建过程中，研究团队面临大规模数据采集的协调难题，需确保106名受试者在多样光照、距离条件下完成动作的规范性与一致性；此外，多模态数据（RGB、深度、骨架、红外）的同步对齐与高质量标注亦对工程实现提出了严格要求。

常用场景

经典使用场景

在三维人体动作识别领域，NTU RGB+D 120数据集常被用作基准测试平台，用于评估和比较各类深度学习模型的性能。该数据集凭借其大规模样本和丰富的多模态数据，为研究者提供了理想的实验环境。经典使用场景包括基于骨架序列的动作分类、跨视角动作识别以及多模态特征融合研究。通过该数据集，研究者能够系统验证模型在复杂场景下的泛化能力与鲁棒性。

解决学术问题

该数据集有效解决了三维动作识别领域长期存在的若干学术难题。首先，它弥补了大规模训练样本的缺失，为数据驱动的深度学习方法提供了充足的学习资源。其次，数据集涵盖了120个动作类别，包含日常活动、健康相关行为及交互动作，极大扩展了类别的多样性与现实性。此外，通过引入106名不同年龄、文化背景的受试者以及155个相机视角，显著提升了动作的类内变异性和视角鲁棒性，为模型泛化能力研究奠定了坚实基础。

实际应用

在实际应用层面，NTU RGB+D 120数据集为智能监控、人机交互、医疗康复等领域提供了关键的技术支撑。基于该数据集训练的模型能够精准识别日常活动与异常行为，适用于养老院的老人看护系统，实时监测跌倒、晕眩等健康相关动作。在虚拟现实与游戏产业中，该数据集驱动的动作识别技术可实现自然流畅的人体运动捕捉与交互。此外，其丰富的多模态数据为机器人视觉感知系统的开发提供了重要参考，助力服务机器人理解并响应人类动作指令。

数据集最近研究