FT-HID
收藏arXiv2022-09-21 更新2024-07-30 收录
下载链接:
https://github.com/ENDLICHERE/FT-HID
下载链接
链接失效反馈官方服务:
资源简介:
FT-HID数据集是一个大规模的RGB-D数据集,专门用于第一人称和第三人称的人类交互分析。该数据集包含了第一人称和第三人称视觉的对齐样本,由109个不同的个体参与,包含超过90,000个样本,涵盖三种模态。数据集通过多种现有的动作识别方法进行了验证,并引入了一种新的多视角交互机制和联合学习多流框架,用于第一人称和第三人称视觉。FT-HID数据集旨在推动FPV和TPV及其联合学习技术在人类动作分析领域的发展。
The FT-HID dataset is a large-scale RGB-D dataset specifically designed for first-person and third-person human interaction analysis. It contains aligned first-person and third-person visual samples, involving 109 distinct individuals, with over 90,000 samples spanning three modalities. The dataset has been validated using multiple existing action recognition methods, and a novel multi-view interaction mechanism and joint-learning multi-stream framework for first-person and third-person vision are introduced. The FT-HID dataset aims to advance the development of FPV, TPV and their joint-learning technologies in the field of human action analysis.
提供机构:
天津大学电气与自动化工程学院
创建时间:
2022-09-21
原始信息汇总
FT-HID数据集概述
数据集信息
- 名称:FT-HID
- 描述:一个大规模的RGB-D数据集,用于第一人称和第三人称人类交互分析。
- 出版物:被《Neural Computing and Applications》期刊接受。
数据集下载
- 下载链接:点击下载
引用信息
-
引用格式:
@article{Guo2022FT-HID, title={FT-HID: A Large Scale RGB-D Dataset for First and Third Person Human Interaction Analysis}, author={Zihui Guo, Yonghong Hou, Pichao Wang, Zhimin Gao, Mingliang Xu, and Wanqing Li}, journal={Neural Computing and Applications, preprint}, year={2022} }
搜集汇总
数据集介绍

构建方式
在计算机视觉领域,人类交互分析的研究长期受限于缺乏同时涵盖第一人称视角(FPV)和第三人称视角(TPV)的综合性数据集。FT-HID数据集的构建旨在填补这一空白,其采集过程精心设计,以确保数据的多样性和对齐性。该数据集邀请了109名不同性别、年龄和体态的参与者,自由组成89组双人交互对,在两种室内场景中自然演绎30类日常交互动作,包括23种积极互动和7种消极行为。数据采集同步使用了四个摄像头:一个佩戴于参与者头部的Orbbec Persee设备用于捕获FPV的RGB视频和深度图,三个固定位置的Kinect v2摄像头分别从前、侧、顶三个视角记录TPV的RGB视频、深度图及三维骨架序列。所有视角的视频均经过人工精确分割,最终产生了超过38,000个RGB样本、38,000个深度样本以及约20,000个骨架序列,形成了大规模、多模态且视角对齐的数据资源。
特点
FT-HID数据集在人类动作识别领域展现出若干鲜明特征。其核心优势在于首次大规模同步提供了第一人称与第三人称视角的对齐样本,使得研究者能够深入探索两种视角间的互补关系。数据集涵盖30类精心设计的双人交互动作,内容兼具日常性与挑战性,有效扩展了动作类别的多样性。此外,数据采集自109名背景各异的参与者,并在多相机配置下完成,包括两个水平视角和一个独特的垂直视角,这显著增强了数据的视角变异性和现实代表性。数据模态完整,同时提供RGB视频、深度图和三维骨架序列,为多模态融合学习提供了坚实基础。数据集的规模庞大,样本总数超过90,000,为训练复杂的深度学习模型提供了充足资源。
使用方法
FT-HID数据集为人类动作识别研究提供了多方面的评估框架。研究者可依据论文定义的协议进行模型性能验证,主要包括跨受试者与跨视角两种评估准则。跨受试者协议将89组交互对按ID划分为训练集与测试集,并提供了两种具体划分方案,其中第二种方案还兼具跨背景评估的挑战。跨视角协议则指定使用侧视与顶视TPV数据训练,以前视TPV数据测试,以检验模型应对视角变化的能力。对于同时利用TPV与FPV数据的研究,数据集提供了8,414对配对样本,支持联合学习与融合策略的探索。使用本数据集时,可分别或共同利用RGB、深度及骨架模态,并借鉴论文中提出的多流融合网络或多视图交互机制等基线方法,以充分挖掘多视角、多模态数据中的互补信息,推动FPV与TPV联合识别技术的发展。
背景与挑战
背景概述
在计算机视觉领域,人类动作识别作为一项基础性研究课题,其应用广泛涉及安防监控、医疗护理、视频检索及人机交互等多个方面。然而,传统研究多聚焦于单一视角,即第一人称视角(FPV)或第三人称视角(TPV),缺乏对两者协同学习的深入探索。为填补这一空白,天津大学、郑州大学及卧龙岗大学的研究团队于2021年共同构建了FT-HID数据集。该数据集作为大规模RGB-D交互数据集,首次实现了FPV与TPV的配对对齐,涵盖109名参与者、30类日常交互动作,并提供了超过9万样本的多模态数据。其核心研究问题在于推动多视角、多模态下人类交互动作的联合表征学习,为动作识别领域提供了更为全面和现实的基准,显著促进了跨视角动作分析技术的发展。
当前挑战
FT-HID数据集致力于解决人类交互动作识别中的多视角融合问题,其核心挑战在于如何有效整合FPV与TPV的互补信息。FPV提供细节丰富但视野受限的自我中心视图,而TPV则捕获全局背景却缺乏动作细微特征,两者在时空表征上存在显著差异,使得模型设计需克服视角异构性与数据对齐的复杂性。在构建过程中,研究团队面临多重挑战:首先,数据采集需同步协调多个固定摄像头与可穿戴设备,确保时空一致性;其次,标注工作涉及大量视频帧的精确分割与动作起止点判定,耗时且易出错;此外,数据规模的扩大带来了存储与计算资源的压力,同时需保证参与者多样性以增强数据集的泛化能力。这些挑战共同凸显了大规模多视角数据集构建的技术难度与应用价值。
常用场景
经典使用场景
在计算机视觉领域,人类交互分析是理解复杂社会行为的关键环节。FT-HID数据集通过同步采集第一人称视角(FPV)与第三人称视角(TPV)的RGB-D数据,为多视角融合学习提供了理想平台。其经典使用场景集中于开发与评估跨视角动作识别算法,研究者利用该数据集训练模型以同时解析穿戴式设备与固定摄像头捕获的交互行为,从而在智能监控、人机交互等任务中实现更全面的人类活动理解。
实际应用
在实际应用层面,FT-HID数据集支撑了智能安防系统中暴力行为检测算法的开发。通过融合第一人称的细节信息与第三人称的全景视野,系统能够更精准地识别推搡、踢打等异常交互。此外,该数据集亦服务于康复医疗领域,辅助分析患者与护理人员间的协作动作,为远程监护与评估提供技术依据。其多模态特性进一步促进了具身智能与辅助机器人系统的环境感知与交互能力提升。
衍生相关工作
基于FT-HID数据集,学界涌现出一系列创新性研究。例如,多视角交互网络(Multi-View Interaction Network)通过通道选择机制融合骨架序列的多视图特征,显著提升了跨视角动作识别性能。同时,动态序列学习框架(SI3D-ConvLSTM Network)利用秩池化技术压缩视频时序信息,并结合三维卷积与循环网络,实现了对FPV与TPV数据的联合表征学习。这些工作不仅验证了数据集的效用,更为多模态融合与跨视角学习提供了新的方法论启示。
以上内容由遇见数据集搜集并总结生成



