FineGym：用于细粒度动作理解的分层视频数据集

Name: FineGym：用于细粒度动作理解的分层视频数据集
Creator: 帕依提提
License: 暂无描述

帕依提提2024-03-04 收录

下载链接：

https://www.payititi.com/opendatasets/show-1192.html

下载链接

链接失效反馈

官方服务：

资源简介：

FineGym数据集的概述。我们在时间上和语义上都提供从粗到细的注释。有三个层次的分类标签。时间维度（由两根柱子代表）也被分为两个层次，即行动和子行动。子行动可以用集合类别进行一般描述，也可以用元素类别进行精确描述。子行动实例的真实元素类别是通过人工构建的决策树获得的。在公共基准上，目前的动作识别技术已经取得了巨大的成功。然而，当用于现实世界的应用时，例如体育分析，需要将一个活动解析为不同的阶段并区分不同的细微动作，它们的表现仍然远远不能令人满意。为了将动作识别提高到一个新的水平，我们开发了FineGym，一个建立在体育馆视频之上的新数据集。与现有的动作识别数据集相比，FineGym在丰富性、质量和多样性方面都很突出。特别是，它在动作和子动作两个层面上提供了具有三级语义层次的时间注释。例如，一个 "平衡木 "事件将被注释为由五组基本子动作组成的序列。"跳跃-跳跃"、"平衡木-转体"、"飞行-萨尔托"、"飞行-手弹 "和 "下马"，每组中的子动作都将被进一步注释为精细定义的类标签。这种新的粒度水平给动作识别带来了巨大的挑战，例如，如何从一个连贯的动作中解析出时间结构，以及如何区分微妙的不同动作类别。我们在这个数据集上系统地研究了代表性的方法，并获得了一些有趣的发现。我们希望这个数据集能够推动对动作理解的研究。 FineGym将语义和时间注释分层组织起来。上部显示了三个层次的分类标签，即事件（如平衡木）、集合（如下马）和元素（如salto forward tucked）。下部描述了两级的时间注释，即动作的时间边界（在顶部栏）和子动作实例（在底部栏）。我们提出了几个细化子行动实例的例子。每一组都属于同一事件中的三个元素类别（BB、FX、UB和VT）。可以看出，这种细粒度的实例包含了细微的、具有挑战性的差异。(在GIF上悬停以获得0.25倍的减速) (1) 元素级的动作识别对现有的方法提出了巨大的挑战。代表性方法的元素级动作识别结果 (2) 稀疏采样对于细粒度的动作识别是不够的。在训练期间改变采样帧的数量时，TSN的表现。 (3) 时间信息的重要性如何？ (a) 运动特征（如光流）可以捕获帧的时间动态，从而使TSN的性能更好。 (b) 时间动态在FineGym中起着重要作用，而TRN可以捕捉到它。 (c) 当测试帧的数量与训练帧的数量相差很大时，TSM的性能急剧下降，而TSN由于只应用了时间平均池而保持了其性能。 (a) 6个元素类别中具有运动和外观特征的TSN的每类表现。 (b) TRN在使用有序或洗牌的测试帧的UB-circle集合上的表现。 (c) 当用3个框架训练和用更多的框架测试时，TSM和TSN在Gym99上的平均类准确率。 (4) 对大规模视频数据集进行预训练有帮助吗？在FineGym上，对Kinetics的预训练并不总是有帮助。一个潜在的原因是粗粒度和细粒度的动作之间在时间模式上存在很大的差距。在Kinetics和ImageNet上预训练的I3D在不同元素类别中的每类表现。 (5) 为什么摆出的信息没有帮助？基于骨架的ST-GCN由于在体操实例上的骨架估计的挑战而陷入困境。使用AlphaPose对跳马动作进行人员检测和姿势估计的结果。可以看出，体操运动员的检测和姿势估计在多个帧中被遗漏，特别是在有强烈运动的帧中。这些帧对于细粒度的识别非常重要。(在GIF上悬停以获得0.25倍的减速) [23/07/2020] We have made pre-extracted feature available at GitHub. Check out here. [16/04/2020] We fix a small issue on the naming of the subaction identifier "A_{ZZZZ}_{WWWW}" to avoid ambiguity. (Thanks Haodong Duan for pointing this out.) [16/04/2020] We include new subsections to track updates and address FAQs. Q0: License issue: A0: The annotations of FineGym are copyright by us and published under the Creative Commons Attribution-NonCommercial 4.0 International License. Q1: Some links are invalid on YouTube. How can I obtain the missing videos? Q1': I am located in mainland China and I cannot access YouTube. How can I get the dataset? A1: Please submit a Google form at this link. We may reach you shortly. Q2: Is the event-/element-level instance in your dataset cut in integral seconds? A2: No. All levels of instances (actions and sub-actions) are annotated in exact timestamp (milliseconds) in a pursuit of frame-level preciseness. The number in the identifier is derived from integral seconds due to conciseness. Please refer to the instructions below for details. Q3: Difference of Mean and Top-1 accuracy in Table 2 & 3? A3: The Top-K accuracy is the fraction of the instances whose correct label falls in the top-k most confident predictions. In our case we take K=1. The mean accuracy is the averaged per-class accuracy. To be specific, we calculate the top-1 accuracy of each class i to be A_i. The mean accuracy is the arithmetic mean of A_{1...N}, i.e. (A_1 + A_2 + ... + A_N)/N, where N is the number of classes. Below, we show an example entry from the above JSON annotation file: The example shows the annotations related to this video. First of all, we assign the unique identifier "0LtLS9wROrk" to that video, which corresponds to the 11-digit YouTube identifier. It contains all action (event-level) instances, whose names follow the format of "E_{XXXXXX}_{YYYYYY}". Here, "E" indicates "Event", and "XXXXXX"/"YYYYYY" indicates the zero-padded starting and ending timestamp (in seconds and truncated to Int). Each action instance includes (1) the exact timestamps in the original video ('timestamps', in seconds), (2) event label ('event'), and (3) a list of annotated subaction (element-level) instances ('segments'). The annotated subaction instances follow the format of "A_{ZZZZ}_{WWWW}". Here, "A" indicates "subAction", and "ZZZZ"/"WWWW" indicates the zero-padded starting and ending timestamp (in seconds and truncated to Int). Ech subaction instance includes (1) the number of stages of this subaction instance ('stages', 3 for Vault and 1 for other events) (2) the exact timestamps of each stage relative to the starting time of event. ('timestamps', in seconds) As a result, each subaction instance has a unique identifier "{VIDEO_ID}_E_{XXXXXX}_{YYYYYY}_A_{ZZZZ}_{WWWW}". This identifier serves as the instance name in the train/val splits of Gym99 and Gym288. Below, we show an example entry from the above JSON annotation file: The example shows the questions related to each class. The identifier corresponds to the label name provided in Gym530 category list. Each class includes (1) a list of questions that are asked ('quetions'), (2) a string of binary codes ('BTcode') where 1 refers to 'yes' and 0 refers to 'no', (3) and original code in the official codebook. We sincerely thank the outstanding annotation team for their excellent work. This work is partially supported by SenseTime Collaborative Grant on Large-scale Multi-modality Analysis and the General Research Funds (GRF) of Hong Kong (No. 14203518 and No. 14205719). The template of this webpage is borrowed from Richard Zhang. For further questions and suggestions, please contact Dian Shao (sd017@ie.cuhk.edu.hk)

FineGym数据集概述。本数据集同时提供时序与语义层面的粗细粒度标注，共包含三级分类标签。时序维度（以两根时间柱示意）同样分为两级：动作与子动作。子动作既可以通过集合类别进行泛化描述，也可借助元素类别实现精准定义。子动作实例的真实元素类别，通过人工构建的决策树获取。当前动作识别（action recognition）技术在公共基准数据集上已取得显著进展，但当应用于体育分析等现实场景时，需将活动拆解为不同阶段并区分细微动作，此时其性能仍远未达到实用要求。为推动动作识别技术迈向新高度，我们构建了FineGym——一个基于体操视频的全新数据集。与现有动作识别数据集相比，FineGym在标注丰富度、数据质量与样本多样性上均表现突出。尤为关键的是，它在动作与子动作两个层级上，提供了具备三级语义层次的时序标注。例如，一个「平衡木」赛事将被标注为由5组基础子动作构成的序列：「跳-跳」、「平衡木转体」、「飞行直体后空翻」、「飞行手翻」与「下法」，每组子动作还将进一步被注释为细粒度的类别标签。这种全新的标注粒度为动作识别带来了重大挑战，例如如何从连贯动作中解析时序结构，以及如何区分差异极细微的动作类别。我们在该数据集上系统测试了主流代表性方法，并获得了若干有趣的发现。我们期望本数据集能够推动动作理解领域的研究进展。 FineGym将语义与时序标注以分层形式组织。上图展示了三级分类标签体系：事件（如平衡木）、集合（如下法）与元素（如屈体前空翻）。下图则描述了两级时序标注：动作的时序边界（顶部时间栏）与子动作实例（底部时间栏）。我们展示了若干细化子动作实例的案例。每一组子动作均属于同一赛事下的四类元素类别（BB、FX、UB与VT）。可以看到，这类细粒度实例包含了极具挑战性的细微差异。（在GIF图上悬停可获得0.25倍慢放效果） (1) 元素级动作识别对现有方法构成巨大挑战。代表性方法的元素级动作识别结果 (2) 稀疏采样无法满足细粒度动作识别需求。训练阶段改变采样帧数时TSN的性能表现 (3) 时序信息的重要性如何？ (a) 运动特征（如光流）可捕捉帧间时序动态，从而提升TSN的性能。 (b) 时序动态在FineGym数据集中发挥着关键作用，而TRN能够有效捕捉此类动态。 (c) 当测试帧数与训练帧数差异较大时，TSM的性能会急剧下降，而TSN仅通过时序平均池化即可保持稳定性能。 (a) 6类元素类别中，同时使用运动与外观特征的TSN的单类别性能表现。 (b) 在UB-circle集合上，TRN使用有序与打乱测试帧时的性能差异。 (c) 以3帧进行训练、以更多帧数进行测试时，TSM与TSN在Gym99数据集上的平均类别准确率。 (4) 在大规模视频数据集上预训练是否有效？在FineGym上，基于Kinetics数据集的预训练并非总能带来性能提升。潜在原因在于粗粒度动作与细粒度动作之间存在显著的时序模式差异。分别在Kinetics与ImageNet上预训练的I3D模型在不同元素类别上的单类别性能表现。 (5) 姿态信息为何未能发挥作用？基于骨架的ST-GCN因体操实例的姿态估计难题而表现不佳。使用AlphaPose对跳马动作进行人体检测与姿态估计的结果。可以看到，体操运动员的检测与姿态估计在多帧中出现遗漏，尤其是在运动剧烈的帧中——而这类帧对于细粒度识别至关重要。（在GIF图上悬停可获得0.25倍慢放效果） [2020年7月23日] 我们已将预提取特征上传至GitHub，详情请点击此处查看。 [2020年4月16日] 我们修复了子动作标识符"A_{ZZZZ}_{WWWW}"的命名问题，以避免歧义（感谢Haodong Duan指出该问题）。 [2020年4月16日] 我们新增了更新日志与常见问题解答（FAQ）板块。 Q0：授权问题？ A0：FineGym的标注版权归我们所有，采用知识共享署名-非商业性使用4.0国际许可协议（Creative Commons Attribution-NonCommercial 4.0 International License）发布。 Q1：部分YouTube链接失效，如何获取缺失的视频？ Q1'：我身处中国大陆，无法访问YouTube，如何获取本数据集？ A1：请通过该链接提交Google表单，我们将尽快与您取得联系。 Q2：数据集中的事件/元素级实例是否以整数秒为单位进行裁剪？ A2：否。所有层级的实例（动作与子动作）均以精确到毫秒的时间戳进行标注，以实现帧级精度。标识符中的数字因简洁性需求采用整数秒形式，详情请参阅下方说明。 Q3：表2与表3中的平均准确率（Mean Accuracy）与Top-1准确率有何区别？ A3：Top-K准确率指正确标签落入模型前K个置信度预测结果中的样本占比，本研究中K=1。平均准确率为单类别准确率的算术平均值。具体而言，我们先计算每个类别i的Top-1准确率A_i，随后对A_1到A_N求算术平均，其中N为总类别数。下文展示上述JSON标注文件中的一个示例条目：该示例展示了与该视频相关的标注信息。首先，我们为该视频分配唯一标识符"0LtLS9wROrk"，对应11位的YouTube视频ID。该标识符包含所有动作（事件级）实例，其命名格式为"E_{XXXXXX}_{YYYYYY}"，其中"E"代表"Event（事件）"，"XXXXXX"与"YYYYYY"分别为补零处理后的起始与结束时间戳（单位为秒，截断为整数）。每个动作实例包含：(1) 原始视频中的精确时间戳（'timestamps'，单位为秒）；(2) 事件标签（'event'）；(3) 已标注的子动作（元素级）实例列表（'segments'）。已标注的子动作实例命名格式为"A_{ZZZZ}_{WWWW}"，其中"A"代表"subAction（子动作）"，"ZZZZ"与"WWWW"分别为补零处理后的起始与结束时间戳（单位为秒，截断为整数）。每个子动作实例包含：(1) 该子动作实例的阶段数（'stages'，跳马动作阶段数为3，其余赛事为1）；(2) 相对于事件起始时间的各阶段精确时间戳（'timestamps'，单位为秒）。因此，每个子动作实例拥有唯一标识符"{VIDEO_ID}_E_{XXXXXX}_{YYYYYY}_A_{ZZZZ}_{WWWW}"，该标识符将作为Gym99与Gym288数据集训练/验证拆分中的实例名称。下文展示上述JSON标注文件中的另一个示例条目：该示例展示了与每个类别相关的问题。标识符对应Gym530类别列表中提供的标签名称。每个类别包含：(1) 所提出的问题列表；(2) 二进制编码字符串（'BTcode'），其中"1"代表"是"，"0"代表"否"；(3) 官方代码本中的原始编码。我们衷心感谢优秀的标注团队所付出的卓越工作。本研究部分受商汤科技大规模多模态分析合作资助项目，以及香港研究资助局普通研究基金（GRF，编号14203518与14205719）支持。本网页模板改编自Richard Zhang。如有进一步问题或建议，请联系邵典（Dian Shao，邮箱：sd017@ie.cuhk.edu.hk）

提供机构：

帕依提提

搜集汇总

数据集介绍

背景与挑战

背景概述

FineGym是一个细粒度动作理解的分层视频数据集，特别设计用于体育分析，提供从粗到细的时间维度和语义注释。该数据集在动作和子动作两个层面上提供三级语义层次的时间注释，旨在解决现实世界中动作识别的挑战。

以上内容由遇见数据集搜集并总结生成