five

NTU60-X, NTU120-X

收藏
arXiv2021-11-24 更新2024-07-30 收录
下载链接:
https://github.com/skelemoa/ntu-x
下载链接
链接失效反馈
官方服务:
资源简介:
NTU60-X和NTU120-X数据集是扩展自现有最大的动作识别数据集NTU-RGBD,增加了手指和面部关节,以提供更丰富的骨骼表示,用于改善基于姿态的人类微妙动作识别。

The NTU60-X and NTU120-X datasets are extended from NTU-RGBD, the largest existing action recognition dataset, by adding finger and facial joints to provide richer skeletal representations for improving pose-based subtle human action recognition.
创建时间:
2021-01-28
原始信息汇总

NTU-X 数据集概述

数据集简介

NTU-X 是一个基于骨架的动作识别数据集,是流行的 NTU 数据集的扩展版本。原始 NTU 数据集包含使用 Kinect 捕获的 25 个关节的人体动作骨架。NTU-X 引入了更详细的 118 个关节骨架,包括 25 个身体关节、42 个手指关节和 51 个面部关节,以更好地识别涉及精细手指运动的类别,如阅读、写作、用餐等。

数据集结构

  • 关节数量:118 个关节
  • 关节组成:25 个身体关节、42 个手指关节、51 个面部关节
  • 序列数量
    • NTU60-X:56148 个序列
    • NTU120-X:113821 个序列
  • 类别数量:60 个类别(NTU60-X)和 120 个类别(NTU120-X)

数据集比较

NTU-X 与其他流行动作数据集的比较:

数据集 身体 手指 面部 关节数 序列数 类别数
MSR-Action 3d 20 567 20
Northwestern-UCLA 24 1475 10
NTU-RGB+D 25 56880 60
NTU-RGB+D 120 25 114035 120
NTU60-X (Ours) 118 56148 60
NTU120-X (Ours) 118 113821 120

数据集类别

NTU-X 包含与 NTU RGB+D 数据集相同的类别,具体包括:

类别编号 动作描述
A1 喝水
A2 用餐/小吃
A3 刷牙
... ...
A120 猜拳游戏(玩石头剪刀布)

数据集创建

NTU-X 数据集是通过从 NTU-60 RGB 视频的 RGB 帧中估计 3D SMPL-X 姿态输出创建的。使用了 SMPL-XExpose 进行这些估计。

姿态提取器选择

  • Expose:用于单人动作类别,如喝水、用餐、刷牙等。
  • SMPL-X:用于多人动作类别,如拥抱、握手、走路等。

数据集下载

由于版权问题,NTU-X 数据集目前无法公开下载。

预训练模型

针对 NTU-X 数据集,使用了一些顶级模型进行了基准测试,详细信息可在 Models 中找到。

搜集汇总
数据集介绍
main_image_url
构建方式
NTU60-X和NTU120-X数据集是在现有NTU-RGBD数据集的基础上进行扩展的,旨在解决现有骨骼动作识别模型在处理细微动作时表现不佳的问题。该数据集通过从RGB视频中提取帧,并使用SMPL-X和ExPose等3D姿态估计算法,生成了包含118个关节的骨骼表示,其中包括25个身体关节、42个手指关节和51个面部关节。为了确保数据质量,研究团队还采用了半自动方法对骨骼数据进行筛选和校正,最终构建了一个包含丰富关节信息的增强型数据集。
特点
NTU60-X和NTU120-X数据集的主要特点在于其丰富的关节信息,特别是手指和面部关节的引入,使得数据集能够更好地捕捉细微的人类动作。与传统的骨骼数据集相比,该数据集的关节数量显著增加,提供了更精细的骨骼表示,从而提升了模型对复杂动作的识别能力。此外,数据集的构建过程中还考虑了多视角和多人的场景,增强了其在实际应用中的适用性。
使用方法
NTU60-X和NTU120-X数据集适用于基于骨骼的动作识别任务,特别是那些需要高精度识别细微动作的应用场景。用户可以通过加载数据集中的RGB视频和对应的骨骼数据,利用现有的骨骼动作识别模型进行训练和评估。为了充分利用数据集中的丰富关节信息,建议对现有模型进行适当的修改,以适应新的骨骼结构。此外,数据集还提供了预训练模型和源代码,方便研究者快速上手并进行实验。
背景与挑战
背景概述
在人体动作识别领域,基于骨架的动作识别模型由于其计算效率高、隐私保护性强等优势,逐渐成为研究热点。然而,现有的大规模骨架数据集如NTU RGB+D在处理细微动作(如手指动作)时存在显著的性能瓶颈,主要原因是这些数据集仅包含有限的关节信息,尤其是手指和面部关节的缺失。为解决这一问题,Neel Trivedi等研究者在2021年提出了NTU60-X和NTU120-X数据集,这两个数据集在原有NTU RGB+D的基础上,增加了手指和面部关节信息,形成了包含118个关节的丰富骨架表示。这一改进不仅提升了模型的识别精度,还为研究细微动作识别提供了新的数据支持,推动了该领域的发展。
当前挑战
NTU60-X和NTU120-X数据集的构建面临两大主要挑战。首先,如何在现有数据集的基础上,准确提取并整合手指和面部关节信息,以确保数据的完整性和准确性。其次,由于增加了更多的关节信息,模型的计算复杂度和训练难度也随之增加,如何设计高效的模型架构以充分利用这些新增的关节信息,成为另一个亟待解决的问题。此外,尽管新增关节信息显著提升了细微动作的识别精度,但在处理多人体动作时,由于骨架提取的复杂性和模糊性,部分动作的识别性能仍存在一定的下降。
常用场景
经典使用场景
NTU60-X和NTU120-X数据集的经典使用场景主要集中在基于骨架的动作识别任务中,尤其是在识别细微动作方面表现突出。由于数据集包含了手指和面部关节的详细信息,研究人员可以利用这些丰富的骨架表示来提升模型对复杂动作的识别能力,例如‘书写’、‘打字’、‘吃饭’等涉及手指细微运动的动作。此外,这些数据集还适用于多视角和多人的动作识别任务,进一步扩展了其在实际应用中的潜力。
衍生相关工作
NTU60-X和NTU120-X数据集的发布催生了一系列相关的经典工作,尤其是在骨架动作识别和图神经网络领域。许多研究者基于该数据集对现有模型进行了改进,例如通过引入更复杂的图结构来处理丰富的关节信息,从而提升模型的识别性能。此外,该数据集还激发了对多模态融合的研究,探索如何将骨架数据与其他模态(如RGB视频或深度信息)结合,以进一步提升动作识别的准确性和鲁棒性。这些衍生工作不仅推动了骨架动作识别技术的发展,还为未来的多模态研究提供了新的思路。
数据集最近研究
最新研究方向
在基于姿态的人类行为识别领域,NTU60-X和NTU120-X数据集的最新研究方向聚焦于通过引入精细化的手指和面部关节数据,提升对细微动作的识别能力。这些数据集扩展了现有的NTU-RGBD数据集,增加了42个手指关节和51个面部关键点,形成了包含118个关节的丰富姿态表示。研究者通过修改现有的最先进模型,如DSTA-Net、4sShiftGCN、MS-G3D和PA-ResGCN,以适应新的关节结构,显著提升了模型在识别细微动作(如书写、打字、进食等)上的表现。此外,这些数据集的引入不仅推动了基于骨骼的动作识别技术的发展,还为多模态融合(如深度与RGB数据的结合)提供了新的研究方向,进一步增强了在复杂场景下的人类行为理解能力。
相关研究论文
  • 1
    NTU-X: An Enhanced Large-scale Dataset for Improving Pose-based Recognition of Subtle Human Actions · 2021年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作