NTU RGB+D|动作识别数据集|计算机视觉数据集

OpenDataLab2025-03-29 更新2024-05-09 收录

动作识别

计算机视觉

下载链接：

https://opendatalab.org.cn/OpenDataLab/NTU_RGB_plus_D

下载链接

链接失效反馈

资源简介：

NTU RGB D是用于rgb-d人类动作识别的大规模数据集。它涉及从40名受试者中收集的60个动作类别的56,880个样本。动作一般可分为三类: 每日动作40项 (如喝酒、吃饭、读书)，健康相关动作9项 (如打喷嚏、蹒跚、跌倒)，相互动作11项 (如拳打脚踢、拥抱)。这些动作在对应于17个视频序列 (即S001-S017) 的17个不同场景条件下发生。使用三个具有不同水平成像视点的摄像机 (即-45，0和45) 捕获动作。提供了用于动作表征的多模态信息，包括深度图，3D骨架关节位置，RGB帧和红外序列。通过将40个受试者分为训练组和测试组的交叉受试者测试，以及使用一个摄像机 (45个) 进行测试和其他两个摄像机进行训练的交叉视图测试来执行性能评估。

提供机构：

OpenDataLab

创建时间：

2022-11-02

AI搜集汇总

数据集介绍

构建方式

在构建NTU RGB+D数据集时，研究者们精心设计了多视角的采集系统，涵盖了60个不同的动作类别。通过使用Kinect v2传感器，数据集不仅捕捉了RGB图像，还包含了深度信息、3D骨骼数据以及红外图像。这一多模态数据的采集过程确保了数据的丰富性和多样性，为后续的动作识别研究提供了坚实的基础。

特点

NTU RGB+D数据集以其大规模和多模态特性著称，包含了超过56,000个视频样本，每个样本均附有详细的标注信息。其独特的3D骨骼数据和深度信息为动作识别提供了更为精确的空间定位，使得该数据集在人体行为分析领域具有显著的优势。此外，数据集中的多视角采集方式也增强了其在复杂场景下的应用潜力。

使用方法

NTU RGB+D数据集广泛应用于人体动作识别、行为分析以及人机交互等研究领域。研究者可以通过提取RGB图像、深度信息、3D骨骼数据等多种特征，结合机器学习算法进行模型训练。数据集的标注信息为监督学习提供了可靠的依据，而其多视角特性则有助于提升模型的鲁棒性和泛化能力。此外，数据集的公开性也促进了学术界的合作与交流。

背景与挑战

背景概述

NTU RGB+D数据集，由新加坡南洋理工大学的研究人员于2016年创建，是动作识别领域的重要资源。该数据集包含了超过56,000个视频样本，涵盖60种不同的动作类别，利用RGB、深度、骨骼和红外数据等多模态信息，旨在解决复杂环境下的动作识别问题。其核心研究问题是如何在多模态数据中提取有效特征，以提高动作识别的准确性和鲁棒性。NTU RGB+D数据集的发布极大地推动了动作识别技术的发展，为后续研究提供了丰富的实验数据和基准。

当前挑战

尽管NTU RGB+D数据集在动作识别领域具有重要地位，但其构建和应用过程中仍面临诸多挑战。首先，多模态数据的融合与特征提取是一个复杂的过程，需要高效的算法来确保不同数据源的信息能够有效整合。其次，数据集中的动作类别多样且复杂，如何设计有效的分类模型以应对这些多样性是一个关键问题。此外，数据集的规模庞大，处理和存储这些数据对计算资源提出了高要求。最后，实际应用中环境变化和噪声干扰对动作识别的准确性构成了挑战，如何在复杂环境中保持识别性能是一个亟待解决的问题。

发展历史

创建时间与更新

NTU RGB+D数据集由新加坡国立大学的研究人员于2016年创建，旨在推动人体动作识别领域的发展。该数据集在2019年进行了首次重大更新，增加了更多的动作类别和样本，以适应日益复杂的识别需求。

重要里程碑

NTU RGB+D数据集的创建标志着人体动作识别技术进入了一个新的阶段。其首次发布时包含了超过56,000个视频样本，涵盖了60个不同的动作类别，极大地丰富了研究资源。2019年的更新进一步扩展了数据集的规模和多样性，引入了更多的参与者和技术细节，显著提升了数据集的实用性和研究价值。

当前发展情况

当前，NTU RGB+D数据集已成为人体动作识别领域的标杆，广泛应用于深度学习模型的训练和评估。其丰富的数据资源和多维度的信息采集方式，为研究人员提供了强大的支持，推动了算法性能的不断提升。此外，该数据集的开放性和持续更新，也促进了跨学科的合作与创新，为智能监控、医疗康复等多个领域的发展提供了坚实的基础。

发展历程

NTU RGB+D数据集首次发表，由台湾国立台湾大学发布，包含56880个视频序列，涵盖60个动作类别。
2016年
NTU RGB+D数据集首次应用于动作识别研究，成为该领域的重要基准数据集之一。
2017年
NTU RGB+D数据集的扩展版本NTU RGB+D 120发布，增加了60个新的动作类别，总视频序列数达到114480。
2018年
NTU RGB+D数据集在多个国际会议和期刊上被广泛引用，推动了深度学习和计算机视觉领域的发展。
2019年
NTU RGB+D数据集的跨视角版本NTU RGB+D X-Sub和NTU RGB+D X-View发布，进一步提升了数据集的应用价值。
2020年

常用场景

经典使用场景

在动作识别领域，NTU RGB+D数据集以其丰富的多模态数据而著称。该数据集包含了超过56,000个动作样本，涵盖了60种不同的动作类别，每个样本均包含RGB视频、深度图、骨骼数据和红外图像。这一多模态特性使得NTU RGB+D成为研究多模态融合和跨模态学习的理想平台。研究者们利用该数据集开发了多种基于深度学习的动作识别模型，显著提升了识别精度和鲁棒性。

解决学术问题

NTU RGB+D数据集在解决动作识别领域的学术研究问题中发挥了关键作用。它不仅提供了大规模、多样化的动作样本，还通过多模态数据的融合，解决了单一模态数据在复杂场景下识别精度不足的问题。此外，该数据集还推动了跨模态学习算法的发展，使得模型能够在不同模态数据之间进行有效信息传递和融合，从而提升了动作识别的准确性和泛化能力。

衍生相关工作

NTU RGB+D数据集的发布催生了大量相关研究工作。例如，基于该数据集，研究者们提出了多种多模态融合算法，如基于注意力机制的多模态融合模型，显著提升了动作识别的性能。此外，该数据集还促进了跨模态学习领域的研究，推动了跨模态特征提取和融合技术的发展。这些衍生工作不仅丰富了动作识别领域的研究内容，也为其他多模态数据处理任务提供了宝贵的参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Amazon Product Data

该数据集包含亚马逊产品的详细信息，包括产品规格、价格、折扣、客户评价和用户评分等字段。

github 收录