GTA-IM Dataset

github2024-05-19 更新2024-05-31 收录

下载链接：

https://github.com/ZheC/GTA-IM-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专注于室内环境中的人与场景交互，收集了来自真实游戏引擎的高清RGB-D图像序列，包含清晰的3D人体姿态和相机姿态注释，以及在人体外观、室内环境、相机视角和人体活动方面的大量多样性。

This dataset focuses on human-scene interactions within indoor environments, capturing high-definition RGB-D image sequences derived from real game engines. It includes precise annotations for 3D human poses and camera poses, along with a substantial diversity in human appearance, indoor settings, camera perspectives, and human activities.

创建时间：

2020-06-13

原始信息汇总

数据集概述

名称: GTA Indoor Motion dataset (GTA-IM)

描述: GTA-IM数据集专注于室内环境中的人-场景交互。该数据集收集了来自真实游戏引擎的高清RGB-D图像序列，包含3D人体运动。数据集具有清晰的3D人体姿态和相机姿态标注，以及在人体外观、室内环境、相机视角和人体活动方面的大量多样性。

数据集内容

图像文件:
- 颜色图像: *.jpg
- 深度图像: *.jpg
- 实例掩码: *_id.png
信息文件:
- info_frames.pickle: 包含相机信息、3D人体姿态（98个关节）、天气条件、角色ID等。
- info_frames.npz: 包含五个数组，其中21个关节构成最小骨骼。
  - joints_2d: 2D人体姿态。
  - joints_3d_cam: 3D人体姿态在当前帧的相机坐标中。
  - joints_3d_world: 3D人体姿态在世界坐标中。
  - world2cam_trans: 世界到相机的变换矩阵。
  - intrinsics: 相机内参。
- realtimeinfo.pickle: 包含数据收集的所有信息。
骨骼连接:
- 定义了人体骨骼的连接方式和关节索引名称。

数据集使用

请求数据集: 通过电子邮件向Zhe Cao发送请求，需提供个人信息和数据使用目的。
数据集限制: 仅供非商业研究使用。

引用信息

引用格式: latex @incollection{caoHMP2020, author = {Zhe Cao and Hang Gao and Karttikeya Mangalam and Qizhi Cai and Minh Vo and Jitendra Malik}, title = {Long-term human motion prediction with scene context}, booktitle = ECCV, year = {2020}, }

许可证

许可证: CC-BY-NC 4.0

搜集汇总

数据集介绍

构建方式

GTA-IM数据集通过利用现实游戏引擎收集室内环境中的人类动作数据，构建了一个强调人-场景交互的高清RGB-D图像序列数据集。该数据集不仅包含清晰的3D人体姿态和相机姿态标注，还涵盖了多样化的室内环境、摄像机视角、人类活动和外观。数据集的构建过程中，研究人员通过游戏引擎生成了一系列高质量的图像序列，并对其进行了详细的标注，确保了数据的多样性和真实性。

特点

GTA-IM数据集的显著特点在于其丰富的场景上下文信息和多样化的人类动作数据。数据集包含了高清的RGB图像、深度图像以及实例掩码，同时还提供了详细的3D人体姿态和相机姿态信息。此外，数据集还涵盖了多种室内环境和摄像机视角，使得研究人员能够进行多角度、多场景的分析和研究。

使用方法

使用GTA-IM数据集时，用户可以通过提供的工具脚本进行数据的可视化和分析。例如，用户可以使用`vis_skeleton_pcd.py`脚本查看3D骨骼和点云数据，或使用`vis_2d_pose_depth.py`脚本查看2D骨骼和深度图。此外，数据集还提供了详细的文档和代码示例，帮助用户快速上手并进行深入研究。

背景与挑战

背景概述

GTA-IM数据集是由加州大学伯克利分校的研究团队在2020年创建的，旨在研究室内环境中的人类运动预测与场景交互。该数据集的核心研究问题是如何在复杂的室内场景中，结合场景上下文信息，进行长期的人类运动预测。主要研究人员包括Zhe Cao、Hang Gao、Karttikeya Mangalam、Qi-Zhi Cai、Minh Vo和Jitendra Malik。该数据集通过从现实游戏引擎中采集高清RGB-D图像序列，提供了丰富的3D人体姿态和相机姿态注释，涵盖了多样的人类外观、室内环境、相机视角和人类活动。这一数据集的发布对计算机视觉领域，尤其是人类运动预测和场景理解的研究，具有重要的推动作用。

当前挑战

GTA-IM数据集在构建过程中面临了多重挑战。首先，如何在游戏引擎中精确捕捉和记录复杂的人类运动与场景交互，确保数据的准确性和多样性，是一个技术难题。其次，数据集的构建涉及大量的数据处理和标注工作，如何高效地生成和维护这些数据也是一个挑战。此外，该数据集的发布旨在解决长期人类运动预测中的关键问题，如如何在复杂场景中结合上下文信息进行准确预测，以及如何处理不同视角和环境下的运动变化。这些挑战不仅涉及数据采集和处理，还包括算法设计和模型训练的复杂性。

常用场景

经典使用场景

GTA-IM数据集在室内环境中的人体运动预测领域展现了其经典应用。该数据集通过收集高分辨率的RGB-D图像序列，结合3D人体姿态和相机姿态的精确标注，为研究者提供了丰富的场景上下文信息。其经典使用场景包括但不限于：基于场景上下文的人体长期运动预测、人体与场景交互的建模以及多视角下的人体姿态估计。这些应用场景不仅提升了模型的预测精度，还为复杂环境下的运动分析提供了新的研究视角。

衍生相关工作

GTA-IM数据集的发布催生了一系列相关经典工作。研究者们基于该数据集开发了多种人体运动预测模型，显著提升了预测的准确性和鲁棒性。此外，数据集的多视角特性激发了多视角一致性算法的研究，推动了多视角人体姿态估计技术的发展。在场景理解方面，GTA-IM数据集为研究人体与场景的交互提供了新的视角，促进了相关算法的创新。这些衍生工作不仅丰富了人体运动分析的研究内容，还为实际应用提供了强有力的技术支持。

数据集最近研究