JTA Dataset

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/fabbrimatteo/JTA-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

JTA（联合轨迹自动）是一个用于城市环境中行人姿态估计和跟踪的大型数据集，通过利用高度逼真的视频游戏《侠盗猎车手V》创建。该数据集包含512个全高清视频（256个用于训练，256个用于测试），每个视频30秒长，记录帧率为30fps。

JTA (Joint Track Auto) is a large-scale dataset designed for pedestrian pose estimation and tracking in urban environments, created by leveraging the highly realistic video game 'Grand Theft Auto V'. The dataset comprises 512 full HD videos (256 for training and 256 for testing), each 30 seconds long, recorded at a frame rate of 30fps.

创建时间：

2018-08-01

原始信息汇总

数据集概述

名称: JTA Dataset

目的: 用于行人姿态估计和跟踪的城市场景数据集

来源: 通过利用高度逼真的视频游戏《侠盗猎车手V》创建

数据组成:

视频: 512个全高清视频（256个用于训练，256个用于测试），每段视频30秒，30帧/秒
注释: 分为训练、测试和验证集，每个集合包含相应数量的JSON文件

数据集内容

注释目录:
- annotations/train: 256个JSON文件
- annotations/test: 128个JSON文件
- annotations/val: 128个JSON文件
视频目录:
- videos/train: 256个MP4视频文件
- videos/test: 128个MP4视频文件
- videos/val: 128个MP4视频文件
脚本:
- to_imgs.py: 将视频分割成帧的Python脚本
- to_poses.py: 将序列注释分割成帧注释的Python脚本
- visualize.py: 提供注释可视化的Python脚本
- coco_style_convert.py: 将JTA格式转换为COCO格式的Python脚本
- posetrack_style_convert.py: 将JTA格式转换为PoseTrack18格式的Python脚本

注释格式

结构: 每个注释文件包含一个矩阵，矩阵有N行和10列，每行代表一个关节的数据
数据元素:
- row[0]: 帧号
- row[1]: 人物ID
- row[2]: 关节类型
- row[3]: 2D x坐标
- row[4]: 2D y坐标
- row[5]: 3D x坐标
- row[6]: 3D y坐标
- row[7]: 3D z坐标
- row[8]: 关节是否被遮挡
- row[9]: 关节是否被自身遮挡

许可证

类型: Creative Commons Attribution-NonCommercial 4.0 International License

搜集汇总

数据集介绍

构建方式

JTA数据集通过利用高度逼真的视频游戏《侠盗猎车手V》构建，旨在为城市场景中的行人姿态估计和跟踪提供丰富的数据资源。该数据集收集了512个全高清视频，每个视频时长30秒，帧率为30帧/秒，分为256个训练视频和256个测试视频。数据集的创建借助了[JTA-Mods工具](https://github.com/fabbrimatteo/JTA-Mods)，确保了数据的真实性和多样性。

特点

JTA数据集的显著特点在于其高度逼真的图像质量和多样化的城市环境，这为姿态估计和跟踪任务提供了丰富的训练和测试样本。数据集包含了详细的标注信息，包括2D和3D坐标、关节类型、遮挡状态等，这些信息以JSON格式存储，便于后续的数据处理和分析。此外，数据集还提供了多种工具，如视频帧分割、姿态标注转换等，极大地简化了数据的使用和处理流程。

使用方法

使用JTA数据集时，用户首先需要下载数据集并遵守非商业用途的许可协议。数据集的目录结构清晰，包含视频文件和对应的标注文件。用户可以通过提供的Python脚本将视频分割为帧，或将标注文件转换为不同的格式，如COCO或PoseTrack格式。此外，数据集还提供了可视化工具，帮助用户直观地查看标注信息。在使用过程中，建议用户参考提供的脚本和文档，确保正确处理和利用数据集中的信息。

背景与挑战

背景概述

JTA数据集（Joint Track Auto）是一个用于城市环境中行人姿态估计和跟踪的大型数据集，由高度逼真的视频游戏《侠盗猎车手V》生成。该数据集由意大利Modena大学的AImageLab实验室创建，包含512个全高清视频，每个视频时长30秒，帧率为30fps，分为训练集和测试集各256个视频。JTA数据集的核心研究问题在于通过虚拟环境中的数据提升行人姿态估计和跟踪的准确性，对计算机视觉领域，尤其是虚拟数据与真实数据结合的研究具有重要影响。

当前挑战

JTA数据集在构建过程中面临多项挑战。首先，从虚拟环境中提取高质量的行人姿态数据需要复杂的工具和精确的标注，这增加了数据集构建的复杂性。其次，虚拟环境中的数据与真实世界的数据存在差异，如何有效融合这两种数据以提升模型性能是一个重要挑战。此外，数据集的规模和多样性要求高效的标注和管理工具，以确保数据的准确性和一致性。最后，虚拟数据中的遮挡问题和3D信息的处理也是该数据集需要解决的关键问题。

常用场景

经典使用场景

JTA数据集在行人姿态估计和跟踪领域展现了其经典应用场景。通过利用高度逼真的视频游戏《侠盗猎车手V》生成的512个全高清视频，该数据集为研究人员提供了一个丰富的资源库，用于训练和测试行人姿态估计模型。这些视频被分为训练集和测试集，每集包含256个视频，每个视频时长30秒，帧率为30帧每秒。研究人员可以利用这些视频及其详细的标注信息，开发和验证行人姿态估计算法，特别是在复杂的城市环境中。

衍生相关工作

JTA数据集的发布催生了多项相关研究工作。例如，基于该数据集的研究论文《Learning to Detect and Track Visible and Occluded Body Joints in a Virtual World》在2018年欧洲计算机视觉会议上发表，探讨了在虚拟环境中检测和跟踪可见及被遮挡人体关节的方法。此外，许多研究者利用JTA数据集进行模型训练和验证，推动了行人姿态估计和跟踪算法的发展。这些工作不仅提升了算法的性能，也为后续研究提供了宝贵的参考和基准。

数据集最近研究