SPIN
收藏arXiv2019-12-14 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/1912.06640v1
下载链接
链接失效反馈官方服务:
资源简介:
SPIN数据集是由马里兰大学帕克分校与Google Robotics合作创建的高分辨率、高帧率立体视频数据集,专注于乒乓球运动中的追踪和动作识别。该数据集包含约53小时的训练数据和1小时的测试数据,每秒记录150帧,分辨率为1024x1280。数据集通过半监督方法和人群计算获取标注,包括乒乓球球追踪、人类姿态和球旋转等三类主要标注。SPIN数据集适用于多种机器学习和视觉任务,如追踪、姿态估计、半监督和无监督学习及生成建模,旨在解决体育运动中的视觉挑战。
The SPIN Dataset is a high-resolution, high-frame-rate stereo video dataset co-developed by the University of Maryland, College Park and Google Robotics, focusing on tracking and action recognition in table tennis. It contains approximately 53 hours of training data and 1 hour of test data, with a recording frame rate of 150 FPS and a resolution of 1024×1280. Annotations for the dataset are collected via semi-supervised methods and crowdsourcing, covering three primary annotation categories: table tennis ball tracking, human pose estimation, and ball rotation. The SPIN Dataset supports a wide range of machine learning and computer vision tasks, including tracking, pose estimation, semi-supervised and unsupervised learning, as well as generative modeling, and aims to address visual challenges in sports scenarios.
提供机构:
马里兰大学帕克分校
创建时间:
2019-12-14
搜集汇总
数据集介绍

构建方式
SPIN数据集的构建方式独具匠心,采用了高分辨率、高帧率的立体视频,捕捉了乒乓球运动中的动态和人类动作。该数据集包含三个主要标注流,用于跟踪和动作识别模型的学习——乒乓球的跟踪、视频中人类的姿态以及人类击打乒乓球时的旋转。训练语料库由53小时的数据组成,标签是通过半监督方法从前一个模型中获得的。测试语料库包含1小时的数据,同样包含这些信息,但人类标注是通过群体计算获得的,然后从中推导出乒乓球的旋转。除了数据集之外,还介绍了几个在数据上训练的基线模型,这些模型能够以与图像生成相同的速度进行推理——即每秒150帧。
特点
SPIN数据集的特点在于其高分辨率、高帧率的立体视频,这为推断乒乓球的三维轨迹和视频中的二维人体姿态提供了可能性。这种特性使得更精确的预测建模、生成建模,甚至半监督学习成为可能。传统的基于ResNet等架构的视觉模型预计在这些数据集上表现良好。然而,当需要以与图像生成相同的速度进行在线推理时,传统的模型无法达到图像获取的速度。本文中,我们只探索能够在数据生成速度上进行在线推理的模型。该数据集的发布语料库由乒乓球比赛组成,包含三个主要的标注流,可用于学习跟踪和动作识别模型——乒乓球的跟踪、人体姿态和球的旋转。
使用方法
SPIN数据集的使用方法包括跟踪乒乓球的位置、预测球的旋转类型以及检测视频中的人体姿态。该数据集可用于多种机器学习和视觉任务,如跟踪、姿态估计、半监督和无监督学习以及生成建模。例如,可以使用该数据集进行3D人体姿态跟踪,以及更丰富的动作预测任务,如正手击球、反手击球等,这些任务可以从姿态信息中得出。此外,由于该数据集是一个多任务数据集,因此可以从强大的视觉模型中受益,例如使用注意力的模型,并且还可以用于半监督和无监督学习。
背景与挑战
背景概述
SPIN数据集是一个高分辨率、高帧率的立体视频数据集,专为乒乓球运动中的跟踪和动作识别而设计。该数据集由马里兰大学帕克分校的Steven Schwarcz和谷歌机器人团队的Peng Xu等人创建。SPIN数据集的核心研究问题是通过高分辨率和高帧率的视频数据来学习乒乓球的跟踪、人类姿态和击球旋转等模型。自其发布以来,SPIN数据集已经成为计算机视觉和机器学习领域的重要资源,推动了跟踪、姿态估计、半监督和无监督学习以及生成模型等多个领域的研究进展。
当前挑战
SPIN数据集面临的挑战主要在于其高分辨率和高帧率特性所带来的计算复杂度。在线推理需要在数据生成的速度上进行,这对于传统的视觉模型来说是一个巨大的挑战。此外,乒乓球运动的动态特性,如球的旋转和弹跳,增加了动作识别和轨迹预测的难度。尽管SPIN数据集提供了丰富的标注信息,但构建过程中仍然需要克服自动标注的准确性和一致性问题。为了解决这些问题,研究人员引入了半监督学习和多任务训练方法,并探索了基于观察数据的乒乓球轨迹特性。尽管如此,SPIN数据集仍然是一个复杂的数据集,需要更先进的技术和模型来充分挖掘其潜力。
常用场景
经典使用场景
SPIN数据集为乒乓球运动中的跟踪和动作识别提供了高分辨率、高帧率的立体视频数据。该数据集包含53小时的训练数据,以及1小时的测试数据,其中包含了乒乓球的位置、人体姿态以及击球时的旋转信息。这些数据对于研究多任务学习、无监督和半监督学习、以及生成模型等机器学习和视觉任务具有重要意义。
实际应用
SPIN数据集的实际应用场景包括但不限于:乒乓球运动中的跟踪和动作识别、3D人体姿态跟踪、更丰富的动作预测任务(如正手击球、反手击球等)。此外,SPIN数据集还可以用于研究多任务学习、无监督和半监督学习、以及生成模型等机器学习和视觉任务,为相关领域的研究提供数据支持。
衍生相关工作
SPIN数据集的引入激发了众多相关研究。例如,研究人员基于SPIN数据集提出了全新的循环架构,用于跟踪和动作识别任务。此外,SPIN数据集还为研究3D人体姿态跟踪、更丰富的动作预测任务、多任务学习、无监督和半监督学习、以及生成模型等机器学习和视觉任务提供了数据支持。这些研究有助于推动计算机视觉领域的进一步发展。
以上内容由遇见数据集搜集并总结生成



