five

NTU RGB+D

收藏
OpenDataLab2026-04-19 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/NTU_RGB_plus_D
下载链接
链接失效反馈
资源简介:
NTU RGB D是用于rgb-d人类动作识别的大规模数据集。它涉及从40名受试者中收集的60个动作类别的56,880个样本。动作一般可分为三类: 每日动作40项 (如喝酒、吃饭、读书),健康相关动作9项 (如打喷嚏、蹒跚、跌倒),相互动作11项 (如拳打脚踢、拥抱)。这些动作在对应于17个视频序列 (即S001-S017) 的17个不同场景条件下发生。使用三个具有不同水平成像视点的摄像机 (即-45,0和45) 捕获动作。提供了用于动作表征的多模态信息,包括深度图,3D骨架关节位置,RGB帧和红外序列。通过将40个受试者分为训练组和测试组的交叉受试者测试,以及使用一个摄像机 (45个) 进行测试和其他两个摄像机进行训练的交叉视图测试来执行性能评估。

NTU RGB-D is a large-scale dataset for RGB-D human action recognition. It contains 56,880 samples across 60 action categories collected from 40 subjects. Actions are generally categorized into three groups: 40 daily actions (e.g., drinking, eating, reading), 9 health-related actions (e.g., sneezing, staggering, falling), and 11 interactive actions (e.g., punching, kicking, hugging). These actions were captured under 17 distinct scene conditions corresponding to 17 video sequences (S001–S017). Three cameras with different horizontal viewing angles (-45°, 0° and 45°) were used to record the actions. Multimodal data for action representation are provided, including depth maps, 3D skeletal joint positions, RGB frames and infrared sequences. Performance evaluation is conducted using two standard protocols: cross-subject testing, where the 40 subjects are split into training and test subsets; and cross-view testing, where the camera with 45° viewing angle is used for testing while the other two cameras are employed for training.
提供机构:
OpenDataLab
创建时间:
2022-11-02
搜集汇总
数据集介绍
main_image_url
构建方式
在构建NTU RGB+D数据集时,研究者们精心设计了多视角的采集系统,涵盖了60个不同的动作类别。通过使用Kinect v2传感器,数据集不仅捕捉了RGB图像,还包含了深度信息、3D骨骼数据以及红外图像。这一多模态数据的采集过程确保了数据的丰富性和多样性,为后续的动作识别研究提供了坚实的基础。
特点
NTU RGB+D数据集以其大规模和多模态特性著称,包含了超过56,000个视频样本,每个样本均附有详细的标注信息。其独特的3D骨骼数据和深度信息为动作识别提供了更为精确的空间定位,使得该数据集在人体行为分析领域具有显著的优势。此外,数据集中的多视角采集方式也增强了其在复杂场景下的应用潜力。
使用方法
NTU RGB+D数据集广泛应用于人体动作识别、行为分析以及人机交互等研究领域。研究者可以通过提取RGB图像、深度信息、3D骨骼数据等多种特征,结合机器学习算法进行模型训练。数据集的标注信息为监督学习提供了可靠的依据,而其多视角特性则有助于提升模型的鲁棒性和泛化能力。此外,数据集的公开性也促进了学术界的合作与交流。
背景与挑战
背景概述
NTU RGB+D数据集,由新加坡南洋理工大学的研究人员于2016年创建,是动作识别领域的重要资源。该数据集包含了超过56,000个视频样本,涵盖60种不同的动作类别,利用RGB、深度、骨骼和红外数据等多模态信息,旨在解决复杂环境下的动作识别问题。其核心研究问题是如何在多模态数据中提取有效特征,以提高动作识别的准确性和鲁棒性。NTU RGB+D数据集的发布极大地推动了动作识别技术的发展,为后续研究提供了丰富的实验数据和基准。
当前挑战
尽管NTU RGB+D数据集在动作识别领域具有重要地位,但其构建和应用过程中仍面临诸多挑战。首先,多模态数据的融合与特征提取是一个复杂的过程,需要高效的算法来确保不同数据源的信息能够有效整合。其次,数据集中的动作类别多样且复杂,如何设计有效的分类模型以应对这些多样性是一个关键问题。此外,数据集的规模庞大,处理和存储这些数据对计算资源提出了高要求。最后,实际应用中环境变化和噪声干扰对动作识别的准确性构成了挑战,如何在复杂环境中保持识别性能是一个亟待解决的问题。
发展历史
创建时间与更新
NTU RGB+D数据集由新加坡国立大学的研究人员于2016年创建,旨在推动人体动作识别领域的发展。该数据集在2019年进行了首次重大更新,增加了更多的动作类别和样本,以适应日益复杂的识别需求。
重要里程碑
NTU RGB+D数据集的创建标志着人体动作识别技术进入了一个新的阶段。其首次发布时包含了超过56,000个视频样本,涵盖了60个不同的动作类别,极大地丰富了研究资源。2019年的更新进一步扩展了数据集的规模和多样性,引入了更多的参与者和技术细节,显著提升了数据集的实用性和研究价值。
当前发展情况
当前,NTU RGB+D数据集已成为人体动作识别领域的标杆,广泛应用于深度学习模型的训练和评估。其丰富的数据资源和多维度的信息采集方式,为研究人员提供了强大的支持,推动了算法性能的不断提升。此外,该数据集的开放性和持续更新,也促进了跨学科的合作与创新,为智能监控、医疗康复等多个领域的发展提供了坚实的基础。
发展历程
  • NTU RGB+D数据集首次发表,由台湾国立台湾大学发布,包含56880个视频序列,涵盖60个动作类别。
    2016年
  • NTU RGB+D数据集首次应用于动作识别研究,成为该领域的重要基准数据集之一。
    2017年
  • NTU RGB+D数据集的扩展版本NTU RGB+D 120发布,增加了60个新的动作类别,总视频序列数达到114480。
    2018年
  • NTU RGB+D数据集在多个国际会议和期刊上被广泛引用,推动了深度学习和计算机视觉领域的发展。
    2019年
  • NTU RGB+D数据集的跨视角版本NTU RGB+D X-Sub和NTU RGB+D X-View发布,进一步提升了数据集的应用价值。
    2020年
常用场景
经典使用场景
在动作识别领域,NTU RGB+D数据集以其丰富的多模态数据而著称。该数据集包含了超过56,000个动作样本,涵盖了60种不同的动作类别,每个样本均包含RGB视频、深度图、骨骼数据和红外图像。这一多模态特性使得NTU RGB+D成为研究多模态融合和跨模态学习的理想平台。研究者们利用该数据集开发了多种基于深度学习的动作识别模型,显著提升了识别精度和鲁棒性。
解决学术问题
NTU RGB+D数据集在解决动作识别领域的学术研究问题中发挥了关键作用。它不仅提供了大规模、多样化的动作样本,还通过多模态数据的融合,解决了单一模态数据在复杂场景下识别精度不足的问题。此外,该数据集还推动了跨模态学习算法的发展,使得模型能够在不同模态数据之间进行有效信息传递和融合,从而提升了动作识别的准确性和泛化能力。
衍生相关工作
NTU RGB+D数据集的发布催生了大量相关研究工作。例如,基于该数据集,研究者们提出了多种多模态融合算法,如基于注意力机制的多模态融合模型,显著提升了动作识别的性能。此外,该数据集还促进了跨模态学习领域的研究,推动了跨模态特征提取和融合技术的发展。这些衍生工作不仅丰富了动作识别领域的研究内容,也为其他多模态数据处理任务提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作