PKU-MMD
收藏arXiv2017-03-28 更新2024-07-25 收录
下载链接:
liuchunhui@pku.edu.cn
下载链接
链接失效反馈官方服务:
资源简介:
PKU-MMD是一个大规模的多模态人类动作理解基准数据集,由北京大学计算机科学与技术学院创建。该数据集包含1076个长视频序列,涵盖51种动作类别,由66名受试者在三个摄像头视角下执行。数据集总共有近20,000个动作实例和540万个帧。PKU-MMD提供多种数据源,包括RGB、深度、红外辐射和骨骼数据。该数据集旨在通过提供大规模、多模态的数据,促进深度学习方法在动作检测领域的应用,特别是在连续动作理解和检测方面。
PKU-MMD is a large-scale multimodal human action understanding benchmark dataset developed by the School of Computer Science and Technology, Peking University. This dataset includes 1,076 long video sequences covering 51 action categories, performed by 66 subjects under three camera viewpoints. It has a total of nearly 20,000 action instances and 5.4 million frames. PKU-MMD provides multiple data sources including RGB, depth, infrared radiation, and skeleton data. This dataset aims to promote the application of deep learning methods in the field of action detection, particularly in continuous action understanding and detection, by providing large-scale multimodal data.
提供机构:
北京大学计算机科学与技术学院
创建时间:
2017-03-22
搜集汇总
数据集介绍
构建方式
在三维人体动作分析领域,构建大规模连续多模态数据集面临诸多挑战。PKU-MMD数据集的构建采用Kinect v2传感器同步采集RGB、深度、红外及骨骼关节数据,通过精心设计的动作序列与多视角采集方案实现。研究团队邀请了66名受试者在三种固定相机视角下执行51类动作,涵盖日常行为与交互动作,每段视频约3至4分钟,包含约20个动作实例。数据标注过程结合志愿者手动定位与跨视角验证机制,确保时间边界标注的准确性与一致性,最终形成包含1076段视频、近5.4百万帧的大规模数据集。
特点
PKU-MMD数据集的核心特点在于其规模宏大与模态丰富性。该数据集包含51类动作,覆盖日常活动与交互场景,动作实例总数超过两万,视频总时长约3000分钟,为数据驱动方法提供了充足样本。多模态数据源包括RGB、深度、红外与骨骼信息,能够从外观、运动、深度等多角度捕捉动作特征。此外,数据集提供三种相机视角与66名受试者的多样性,支持跨视角与跨受试者的评估,增强了模型的泛化能力。连续未修剪的视频序列设计,使数据集特别适用于动作检测任务的研究。
使用方法
PKU-MMD数据集主要用于连续动作检测与多模态动作分析研究。研究者可采用滑动窗口结合分类器(如BLSTM或SVM)的方法进行时间定位与动作识别,亦可利用骨骼、RGB、光流等多模态特征进行融合分析。数据集提供跨视角与跨受试者两种划分方案,便于评估模型在不同条件下的鲁棒性。评估指标包括F1分数、平均精度(AP)及新提出的二维平均精度(2D-AP),全面衡量检测算法的性能。该数据集为开发与验证深度网络(如LSTM、CNN)在多模态动作理解中的应用提供了标准基准。
背景与挑战
背景概述
在计算机视觉领域,三维人体动作理解作为一项核心任务,其发展深受数据集规模与多样性的制约。2017年,北京大学计算机科学技术研究所的刘春辉、胡月昱、李阳浩、宋思捷和刘佳颖团队,联合微软亚洲研究院,共同推出了PKU-MMD数据集,旨在应对连续多模态动作检测中大规模基准缺失的挑战。该数据集聚焦于未修剪视频中的动作时序定位与识别,涵盖了51类复杂日常与交互动作,由66位受试者在三视角下采集,包含近两万个动作实例与五百四十万帧多模态数据。PKU-MMD的诞生不仅填补了三维动作检测领域的数据空白,更为数据驱动的深度学习方法提供了丰富的训练资源,显著推动了动作理解技术的演进。
当前挑战
PKU-MMD数据集致力于解决连续多模态动作检测这一复杂问题,其核心挑战在于如何精准定位未修剪视频中动作的时序边界并实现跨视角、跨受试者的稳健识别。构建过程中,研究团队面临多重困难:多模态数据同步采集需协调RGB、深度、红外与骨架信息,确保时空对齐的一致性;大规模动作实例的标注耗费巨大人力,且时序边界的主观偏差要求设计交叉验证机制以提升标签可靠性;此外,数据多样性带来的类内变异、光照变化及背景干扰,进一步增加了算法建模的难度。这些挑战共同凸显了三维动作检测在真实场景中应用的复杂性。
常用场景
经典使用场景
在三维人体动作理解领域,PKU-MMD数据集因其大规模、多模态特性而成为连续动作检测研究的经典基准。该数据集通过Kinect v2传感器同步采集RGB、深度、红外和骨骼数据,涵盖51个动作类别,由66名受试者在三个相机视角下执行,包含约20,000个动作实例。其长视频序列设计使得研究者能够模拟真实场景中的连续动作流,为动作检测算法提供了丰富的时空上下文信息,尤其适用于基于深度学习的端到端模型训练与评估。
衍生相关工作
PKU-MMD数据集的发布催生了一系列经典研究工作,尤其在多模态融合与时序建模方向产生深远影响。例如,基于该数据集的联合分类回归循环神经网络(JCRRNN)扩展了在线动作检测的框架,而时空注意力LSTM模型则探索了骨骼数据中的关键关节判别性特征。此外,研究者利用其多模态特性开发了RGB-骨骼跨模态表示学习方法,提升了动作检测的精度与泛化能力。这些工作不仅推动了动作检测算法的进步,也为后续大规模多模态数据集(如NTU RGB+D)的构建提供了范式参考。
数据集最近研究
最新研究方向
在三维人体动作理解领域,PKU-MMD数据集作为大规模多模态连续动作检测的基准,近年来推动了前沿研究的深入发展。该数据集融合了RGB、深度、红外辐射和骨骼四种模态数据,为数据驱动的深度学习模型提供了丰富的训练资源。当前研究热点聚焦于多模态融合策略的优化,旨在通过跨模态特征互补提升动作检测的精度与鲁棒性。例如,结合骨骼数据的几何表征与RGB视频的外观信息,研究者探索了时空注意力机制与递归神经网络的联合架构,以应对连续视频中动作边界的精准定位挑战。此外,数据集支持跨视角与跨主体的评估协议,促进了算法在复杂场景下的泛化能力研究,为智能监控、人机交互等实际应用奠定了理论基础。
相关研究论文
- 1PKU-MMD: A Large Scale Benchmark for Continuous Multi-Modal Human Action Understanding北京大学计算机科学与技术学院 · 2017年
以上内容由遇见数据集搜集并总结生成



