JTA Dataset

github2024-05-02 更新2024-05-31 收录

下载链接：

https://github.com/KuehlschrankDino/JTA-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

JTA（联合轨迹自动）是一个用于城市场景下行人姿态估计和跟踪的大型数据集，通过利用高度逼真的视频游戏《侠盗猎车手V》创建。该数据集包含512个全高清视频（256个用于训练，256个用于测试），每个视频30秒长，以30帧/秒录制。

JTA (Joint Track Auto) is a large-scale dataset designed for pedestrian pose estimation and tracking in urban scenarios, created by leveraging the highly realistic video game 'Grand Theft Auto V'. The dataset comprises 512 full HD videos (256 for training and 256 for testing), each 30 seconds long, recorded at 30 frames per second.

创建时间：

2018-11-19

原始信息汇总

JTA Dataset概述

数据集名称： JTA (Joint Track Auto)

数据集用途： 用于行人姿态估计和跟踪，特别是在城市环境中。

数据来源： 通过利用视频游戏《侠盗猎车手V》（Grand Theft Auto V）创建的高度逼真的视频。

数据集规模： 包含512个全高清视频，分为256个训练视频和256个测试视频，每个视频时长30秒，记录帧率为30fps。

数据集创建工具： JTA-Mods

数据集内容

文件结构：

annotations: 包含训练、测试和验证的JSON格式注释文件。
- annotations/train: 256个JSON文件，对应每个训练序列。
- annotations/test: 128个JSON文件，对应每个测试序列。
- annotations/val: 128个JSON文件，对应每个验证序列。
videos: 包含训练、测试和验证的视频文件。
- videos/train: 256个MP4视频文件，对应每个训练序列。
- videos/test: 128个MP4视频文件，对应每个测试序列。
- videos/val: 128个MP4视频文件，对应每个验证序列。

辅助脚本：

to_imgs.py: 将视频分割成帧，并保存为指定格式的图像。
to_poses.py: 将序列注释分割成帧注释，并保存为指定格式的注释。
visualize.py: 提供注释的可视化表示。
coco_style_convert.py: 将注释转换为COCO格式。

注释格式：

每个注释文件对应一个特定序列，包含一个N行10列的矩阵，每行代表一个关节的数据。
数据包括帧号、人物ID、关节类型、2D和3D坐标、关节是否被遮挡等信息。

摄像头参数：

所有序列使用同一摄像头录制，其内参矩阵为：

K = [ 1158 0 960 0 1158 540 0 0 1 ]

数据集获取

获取条件： 需要通过电子邮件向数据集创建者申请**JTA-Key**，并声明数据的使用目的为研究和教育。

下载步骤：

克隆JTA-Dataset仓库。
运行download_data.sh脚本下载视频和注释。
输入通过邮件收到的**JTA-Key**以开始下载。

搜集汇总

数据集介绍

构建方式

JTA数据集通过利用高度逼真的视频游戏《侠盗猎车手V》构建，旨在为城市场景中的行人姿态估计与跟踪提供丰富的数据资源。该数据集收集了512个全高清视频，每个视频时长30秒，帧率为30fps，分为256个训练视频和256个测试视频。数据集的创建借助了特定的工具，确保了数据的真实性和多样性。

特点

JTA数据集的显著特点在于其高度的真实感和多样性，得益于《侠盗猎车手V》的虚拟环境。数据集包含了详细的2D和3D关节坐标、遮挡信息以及自遮挡状态，为研究者提供了丰富的标注信息。此外，数据集支持多种格式的转换，如COCO格式，便于不同研究需求的应用。

使用方法

使用JTA数据集时，用户需先获取访问密钥并通过提供的脚本下载数据。数据集包含视频和相应的标注文件，用户可以通过Python脚本将视频转换为帧图像或提取姿态信息。此外，数据集还提供了可视化工具和COCO格式转换脚本，方便用户进行数据预处理和分析。

背景与挑战

背景概述

JTA数据集（Joint Track Auto）是一个用于城市环境中行人姿态估计与跟踪的大规模数据集，由Matteo Fabbri等人通过利用高度逼真的视频游戏《侠盗猎车手V》创建。该数据集包含512个全高清视频，分为256个训练集和256个测试集，每个视频时长30秒，帧率为30fps。JTA数据集的核心研究问题集中在行人姿态估计与跟踪，特别是在复杂的城市环境中处理可见与被遮挡的关节点。该数据集的引入为计算机视觉领域提供了新的研究方向，尤其是在虚拟环境中进行姿态估计与跟踪的挑战性任务。

当前挑战

JTA数据集在构建过程中面临了多个挑战。首先，利用虚拟环境生成数据虽然提供了高度逼真的场景，但也带来了与真实世界数据集的差异性问题，特别是在光照、遮挡和动态场景变化方面。其次，数据集的标注过程复杂，需要对每个视频帧中的关节点进行精确的2D和3D坐标标注，同时还要处理关节点的遮挡情况。此外，数据集的规模庞大，如何高效地存储、处理和分析这些数据也是一个技术挑战。最后，将虚拟环境中的研究成果迁移到真实世界应用中，仍需进一步的研究与验证。

常用场景

经典使用场景

JTA数据集在城市环境中行人和姿态估计与跟踪领域展现了其经典应用场景。该数据集通过高度逼真的视频游戏《侠盗猎车手V》生成，提供了512个全高清视频，每个视频时长30秒，帧率为30fps。这些视频被分为训练集和测试集，分别包含256个视频，为研究人员提供了丰富的数据资源，用于开发和验证行人姿态估计与跟踪算法。

衍生相关工作

JTA数据集的发布催生了一系列相关研究工作，特别是在行人姿态估计与跟踪领域。许多研究者基于该数据集开发了新的算法和模型，如改进的姿态估计算法、多目标跟踪技术等。此外，该数据集还被用于验证和比较不同方法的性能，推动了该领域的技术进步和标准化。

数据集最近研究