five

People-Object Interaction Dataset|人机交互数据集|行为识别数据集

收藏
github2024-05-14 更新2024-05-31 收录
人机交互
行为识别
下载链接:
https://github.com/sjtu-medialab/People-Ojbect-Interaction-Dataset
下载链接
链接失效反馈
资源简介:
该数据集包含38系列30视角的多人或单人RGB-D视频序列,配有相应的相机参数、前景掩码、SMPL模型和一些点云、网格文件。每个视频序列具有4K分辨率、25 FPS和1~19秒的时长。所有30个视角均使用Kinect Azure设备在一个统一的环绕场景中捕捉。

This dataset comprises RGB-D video sequences of multiple or single individuals from 38 series across 30 viewpoints, accompanied by corresponding camera parameters, foreground masks, SMPL models, as well as some point cloud and mesh files. Each video sequence boasts a 4K resolution, 25 FPS, and a duration ranging from 1 to 19 seconds. All 30 viewpoints were captured using Kinect Azure devices within a unified, encompassing scene.
创建时间:
2024-01-18
原始信息汇总

People-Object Interaction Dataset 概述

数据集内容

  • 视频序列:包含38系列30-view的RGB-D视频序列,分辨率为4K,帧率为25 FPS,持续时间为1~19秒。
  • 辅助数据:包括相机参数、前景掩码、SMPL模型、点云和网格文件。

视频序列详情

  • 场景类型
    • 空场景:1个,持续1秒。
    • 相机校准:1个,持续8秒。
    • 单人互动:23个,持续2~19秒,包括多种日常活动如翻书、坐椅子、开伞等。
    • 双人互动:11个,持续2~14秒,涉及双人合作活动如移动桌子、扫地等。
    • 三人互动:2个,持续2~5秒,主要为集体拍照。

数据处理

数据集下载

相机参数

  • 文件intrinsic.txtextrinsic.txt提供相机参数。
  • 格式:外部参数表示相机坐标系到世界坐标系的转换。

引用信息

  • 论文:已被ICIP-2024接受。

  • 引用格式

    @inproceedings{POID, title={A New People-Object Interaction Dataset and NVS Benchmarks}, author={Guo, Shuai and Zhong, Houqiang and Wang, Qiuwen and Chen, Ziyu and Gao, Yijie and Yuan, Jiajing and Zhang, Chenyu and Xie, Rong and Song, Li}, booktitle={2024 IEEE International Conference on Image Processing (ICIP)}, year={2024}, organization={IEEE} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过精心设计的采集环境与系统,利用Kinect Azure设备在统一环绕场景中捕捉了38组30视角的多人或单人RGB-D视频序列。每组视频序列具有4K分辨率、25帧每秒的帧率,时长介于1至19秒之间。数据集不仅包含视频序列,还提供了相应的相机参数、前景掩码、SMPL模型以及点云和网格文件。后期处理阶段,采用了BackgroundMattingV2提取前景掩码,结合Zhou等人的方法生成点云和网格文件,并通过MMHuman3D提取SMPL模型,确保了数据的高质量和多样性。
使用方法
研究者可通过访问百度网盘或Medialab网站下载该数据集,下载链接及验证码已在README中提供。数据集的文件结构清晰,包括RGB-D-Mask序列、网格和点云等子文件夹,便于用户快速定位所需数据。相机参数存储在`intrinsic.txt`和`extrinsic.txt`文件中,便于进行相机校准和坐标转换。此外,数据集的引用信息已明确,研究者在发表相关研究成果时,应按照提供的引用格式进行引用,以确保学术规范。
背景与挑战
背景概述
People-Object Interaction Dataset(人物-物体交互数据集)由上海交通大学媒体与传播学院(SJTU Medialab)的研究团队创建,旨在为多视角人物与物体交互的研究提供丰富的数据资源。该数据集包含38个系列的多视角RGB-D视频序列,涵盖单人和多人场景,视频分辨率为4K,帧率为25 FPS,时长在1至19秒之间。数据集不仅提供了视频数据,还包含了相机参数、前景掩码、SMPL模型以及点云和网格文件,为研究者提供了多模态的交互数据。该数据集的创建旨在推动计算机视觉领域中人物与物体交互的研究,尤其是多视角场景下的复杂交互行为分析。
当前挑战
该数据集在构建过程中面临多重挑战。首先,多视角视频的采集需要精确的相机校准和同步,以确保不同视角下的数据一致性。其次,前景掩码的提取、点云和网格文件的生成以及SMPL模型的重建均依赖于复杂的计算机视觉算法,这些算法的精度和鲁棒性直接影响数据集的质量。此外,数据集中包含的交互行为种类繁多,涵盖了日常生活、工作、娱乐等多个场景,如何准确捕捉和标注这些复杂交互行为也是一个重要挑战。最后,数据集的规模和多样性要求高效的存储和处理方案,以满足研究者的需求。
常用场景
经典使用场景
People-Object Interaction Dataset(人物-物体交互数据集)在计算机视觉领域中,主要用于研究多视角下的人物与物体交互行为。该数据集通过30个视角的高分辨率RGB-D视频序列,捕捉了单人和多人与物体交互的复杂场景,如翻书、搬动家具、使用电子设备等。这些丰富的交互行为为研究者提供了深入分析人体动作与物体关系的机会,尤其适用于动作识别、行为理解和三维人体建模等任务。
解决学术问题
该数据集解决了多视角下人物与物体交互行为的复杂性问题,特别是在多视角同步捕捉和三维重建方面。通过提供高分辨率的RGB-D视频、前景掩码、SMPL模型和点云数据,研究者能够更精确地分析人体动作与物体之间的空间关系和动态变化。这不仅推动了计算机视觉领域的发展,还为行为识别、人体姿态估计和虚拟现实等研究提供了重要的数据支持。
实际应用
在实际应用中,People-Object Interaction Dataset可广泛应用于虚拟现实、增强现实和机器人技术等领域。例如,在虚拟现实中,该数据集可用于训练模型以实现更自然的人机交互;在增强现实中,可用于开发智能系统以识别和响应用户的动作;在机器人技术中,可帮助机器人理解并执行复杂的操作任务,如搬运物体或与人类协同工作。
数据集最近研究
最新研究方向
在计算机视觉领域,人-物交互(People-Object Interaction, POI)数据集的研究正逐渐成为焦点。该数据集通过多视角RGB-D视频序列捕捉复杂的人与物体的交互行为,为研究者提供了丰富的视觉和几何信息。最新的研究方向主要集中在利用深度学习技术对这些交互行为进行精准识别与理解,尤其是在多模态数据融合、三维人体姿态估计以及场景理解等方面。此外,该数据集的发布也为虚拟现实、增强现实等应用场景提供了重要的数据支持,推动了人机交互技术的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

lmarena-ai/arena-human-preference-100k

这个数据集包含了2024年6月至2024年8月期间收集的排行榜对话数据。它包括用于开发Arena Explorer的英语人类偏好评价。此外,我们还提供了一个嵌入文件,其中包含了英语对话的预计算嵌入,这些嵌入用于主题建模管道以对这些对话进行分类和分析。

hugging_face 收录

QM9

QM9数据集包含134k个有机小分子化合物的量子化学计算结果,涵盖了12个量子化学性质,如分子能量、电离能、电子亲和能等。

quantum-machine.org 收录

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024)

Duke Lung Cancer Screening Dataset 2024 (DLCS 2024) 是一个用于肺癌风险分类研究的数据集,随着低剂量胸部CT筛查项目的普及,该数据集变得越来越重要。

github 收录

EDDFS

EDDFS包含28877张彩色眼底图像,用于基于深度学习的眼病诊断。除了15000个健康样本外,数据集还包括8种眼疾,如糖尿病视网膜病变、老年性黄斑变性、青光眼、病理性近视、高血压、视网膜静脉阻塞、LASIK斑点及其他。

github 收录

TyDi QA

TyDi QA是一个包含204,000个问题-答案对的数据集,涵盖11种类型多样的语言。该数据集旨在通过包含多种语言特征,使模型能够跨大量世界语言进行泛化。问题由不知道答案的人撰写,数据直接在每种语言中收集,无需翻译。

github 收录