five

NTU-RGB+D-120

收藏
arXiv2025-05-23 更新2025-05-28 收录
下载链接:
http://arxiv.org/abs/2505.18048v1
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
NTU-RGB+D-120数据集是一个包含114,480个视频片段的大型3D开放数据集,涵盖了120个不同的动作类别,包括日常动作、健康相关动作和双人互动动作。该数据集是在控制环境下捕获的,具有高质量的3D骨骼分割和较少的内置偏差和混淆因素。

The NTU-RGB+D-120 dataset is a large-scale 3D open dataset consisting of 114,480 video clips, covering 120 distinct action categories including daily activities, health-related actions, and two-person interactive actions. Captured in controlled environments, this dataset features high-quality 3D skeleton segmentation and minimal inherent biases and confounding factors.
提供机构:
艾伦·图灵研究所
创建时间:
2025-05-23
搜集汇总
数据集介绍
main_image_url
构建方式
NTU-RGB+D-120数据集作为当前最大规模的3D骨骼动作识别基准,其构建过程体现了严谨的实验设计理念。研究团队通过微软Kinect V2深度传感器采集了114,480个视频片段,涵盖120类动作类别,包含单人人机交互、人物-物体互动及双人交互等多种场景。数据采集在受控环境下完成,106名受试者从155个不同视角执行标准化动作,每个动作类别样本量均衡分布。原始数据经过25个关节点三维坐标标注,并采用时间同步技术确保多模态数据对齐,最终形成结构化时空序列数据。
使用方法
数据集采用标准化评估协议,提供跨受试者(X-Sub)和跨场景(X-Set)两种官方划分方式,确保结果可比性。研究者可通过加载预处理后的骨骼序列数据,直接输入时空图卷积网络或Transformer架构进行训练。针对实时应用场景,论文提出三种系统化的数据降质方法:随机帧丢弃模拟网络丢包(10-90%丢弃率)、均匀降采样模拟低帧率(3-15FPS)以及连续块丢弃模拟传感器失效,用户可灵活配置不同降质参数组合。为便于性能对比,建议同时报告原始数据与降质数据下的识别准确率,并关注LogSigRNN等抗降质模型在低帧率场景的表现。
背景与挑战
背景概述
NTU-RGB+D-120数据集是由新加坡南洋理工大学的研究团队于2019年推出的,是目前最大且最详细的3D人体动作识别开源数据集。该数据集包含114,480个视频片段,覆盖120种不同的动作类别,涉及单人动作、人与物体互动以及人与人之间的互动。数据采集使用了Microsoft Kinect V2传感器的红外深度摄像头,提供了包含25个关节点的3D骨骼数据。NTU-RGB+D-120数据集在人体动作识别领域具有重要影响力,为研究者提供了一个高质量、多样化的基准测试平台,推动了基于骨骼数据的动作识别算法的发展。
当前挑战
NTU-RGB+D-120数据集面临的挑战主要包括两个方面:一是领域问题的挑战,即如何提高模型在真实世界退化场景下的鲁棒性。真实世界中的视频数据常因实时处理或资源受限硬件而出现帧丢失、采样率降低等问题,这导致模型性能显著下降。二是构建过程中的挑战,包括数据采集的复杂性、标注的高成本以及数据质量的保证。此外,该数据集还需要解决如何有效评估模型在不同退化类型(如随机采样、均匀采样和块丢失)下的性能差异,以及如何开发能够抵抗数据退化的新型模型架构。
常用场景
经典使用场景
NTU-RGB+D-120数据集在骨骼人体动作识别(SHAR)研究中占据核心地位,尤其在评估模型对现实场景中降质数据的鲁棒性方面表现突出。该数据集通过高精度的3D骨骼标注和丰富的动作类别,为研究者提供了模拟视频流降质(如帧丢失、采样率下降)的理想平台,成为验证算法在边缘计算、实时监控等受限环境下性能的黄金标准。
解决学术问题
该数据集有效解决了SHAR领域的关键学术挑战:一是系统评估了不同降质类型(随机采样、均匀采样、连续块丢失)对模型性能的差异化影响,揭示了传统随机采样评估的局限性;二是通过引入基于粗糙路径理论(Rough Path Theory)的LogSigRNN模型,在低帧率(3 FPS)场景下准确率超越当前最优模型6%,为时间序列降质鲁棒性研究提供了新范式;三是建立了首个标准化降质基准,填补了模型在真实部署场景中性能评估的空白。
实际应用
在智能监控系统中,NTU-RGB+D-120支持的降质鲁棒模型可适应CCTV常见的5-15 FPS低帧率环境;在医疗康复领域,其骨骼动作数据能精准识别跌倒等异常行为;工业人机协作场景则利用其多视角交互动作数据提升安全性。尤其值得注意的是,基于该数据集开发的插值修复技术,可将模型在90%帧丢失下的识别准确率提升40%,显著增强了边缘设备部署的可行性。
数据集最近研究
最新研究方向
近年来,NTU-RGB+D-120数据集在骨骼行为识别(SHAR)领域的研究重点逐渐转向模型在真实场景下的鲁棒性评估。随着计算机视觉模型在边缘计算和实时系统中的广泛应用,数据流的质量退化问题日益凸显。最新研究通过系统性地评估五种前沿SHAR模型在三种典型数据退化场景(均匀降采样、随机降采样和连续帧丢失)下的表现,揭示了模型性能对退化类型的敏感性差异。值得注意的是,基于粗糙路径理论(Rough Path Theory)的LogSigRNN模型在低帧率(3 FPS)条件下展现出显著的退化抵抗能力,其性能超越当前最优模型DeGCN约6%,这一发现为边缘设备上的实时行为识别提供了新的架构设计思路。该研究还提出通过帧插值的简单缓解策略,可使现有模型性能提升超过40%,为开发新一代抗退化视觉模型奠定了方法论基础。
相关研究论文
  • 1
    SHARDeg: A Benchmark for Skeletal Human Action Recognition in Degraded Scenarios艾伦·图灵研究所 · 2025年
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作