APTv2

Name: APTv2
Creator: 杭州电子科技大学电子信息学院
Published: 2023-12-25 12:49:49
License: 暂无描述

arXiv2023-12-25 更新2025-04-23 收录

下载链接：

https://github.com/ViTAE-Transformer/APTv2

下载链接

链接失效反馈

官方服务：

资源简介：

APTv2是由杭州电子科技大学和悉尼大学合作创建的大规模动物姿态估计和跟踪数据集，包含来自30种不同动物的2749个视频片段，总计41,235帧。数据集通过手动选择和标注，提供了高质量的关键点和跟踪标注，适用于评估动物姿态估计和跟踪方法。APTv2数据集的应用领域包括动物行为理解、野生动物保护等，旨在解决动物姿态估计和跟踪中的挑战。

APTv2 is a large-scale animal pose estimation and tracking dataset jointly developed by Hangzhou Dianzi University and the University of Sydney. It includes 2,749 video clips from 30 distinct animal species, totaling 41,235 frames. The dataset provides high-quality keypoint and tracking annotations obtained through manual selection and annotation, which is suitable for evaluating animal pose estimation and tracking methods. The application fields of the APTv2 dataset cover animal behavior understanding, wildlife conservation and other related areas, with the goal of addressing the challenges in animal pose estimation and tracking.

提供机构：

杭州电子科技大学电子信息学院

创建时间：

2023-12-25

搜集汇总

数据集介绍

构建方式

在动物姿态估计与追踪领域，现有数据集往往局限于单一任务，缺乏对视频序列中动物关键点连续追踪的整合。为填补这一空白，APTv2数据集通过系统化流程构建：首先从YouTube平台筛选出涵盖30个物种、2749个高质量视频片段，确保背景多样性与高分辨率；随后对每个视频进行定制化帧采样，保留15帧以突出运动幅度，并涵盖遮挡与截断等挑战性场景；最后，由专业标注团队依据MS COCO协议手动标注每帧中动物的17个关键点、边界框及跨帧实例ID，并通过严格交叉验证确保标注精度，总计完成84,611个实例的标注，形成兼顾易用性与复杂性的基准数据。

特点

APTv2数据集在动物行为计算研究中具有显著特色：其规模宏大，涵盖41,235帧图像与30个物种，并依生物学分类划分为15个科，为跨物种泛化研究提供结构化基础；数据标注兼具时序连贯性，不仅包含单帧关键点，更通过实例ID实现动物个体在视频中的轨迹追踪，首次统一姿态估计与追踪双任务需求；此外，数据集依据每帧实例数量划分为简单与困难子集，后者包含大量多实例、遮挡及运动模糊场景，模拟真实世界复杂性，为模型鲁棒性评估设立新挑战。

使用方法

为充分发挥APTv2的基准价值，研究者可依托其构建的三条评估轨道展开工作：在单帧姿态估计轨道中，可利用数据集训练或微调现有CNN或视觉Transformer模型，并探索基于ImageNet、MS COCO或AP-10K的跨域预训练迁移效果；在低数据泛化轨道中，可通过“留一法”或少量样本微调设置，检验模型在稀缺物种或未知科属上的泛化能力；在姿态追踪轨道中，可结合目标追踪器获取序列边界框，再应用姿态估计模型完成关键点连续预测，或直接采用集成的ViTPoseTrack基线方法，共享骨干网络实现高效联合学习。数据已按7:1:2比例划分为训练、验证与测试集，支持视频级分割以避免信息泄露。

背景与挑战

背景概述

动物姿态估计与追踪是计算机视觉领域理解动物行为的关键任务，然而过往研究多聚焦于单帧姿态估计或独立追踪，缺乏整合时序信息的综合性基准。为填补这一空白，杨宇翔、邓颖琪、徐宇飞及张静等研究人员于2023年正式发布了APTv2数据集。该数据集由杭州电子科技大学与悉尼大学联合构建，旨在通过大规模、高质量的视频标注，推动视频驱动的动物姿态分析与追踪算法发展。APTv2涵盖了30个物种、15个科别的2749个视频片段，包含超过4万帧图像及8.4万余个动物实例的关节点与追踪ID标注。其构建得到了中国国家自然科学基金等项目的支持，并通过引入基于视觉Transformer的基线方法ViTPoseTrack，为跨物种泛化、低数据迁移等核心研究问题提供了首个系统性评估基准，显著促进了动物行为计算分析领域的实证研究进展。

当前挑战

APTv2所针对的动物姿态估计与追踪任务面临多重挑战：在领域问题层面，动物物种间存在显著的形态、运动模式及关节分布差异，导致模型跨物种泛化能力受限；视频场景中常见的遮挡、运动模糊、尺度变化及多实例交互等问题，进一步加大了姿态估计的难度。在数据集构建过程中，挑战主要体现在高质量标注的获取：需从真实世界视频中筛选具有多样性背景与运动幅度的片段，并依据动物分类学对物种进行系统划分以支持泛化研究；标注工作需处理单帧内多实例共存导致的身份混淆与关节点定位歧义，为此引入易/难子集划分机制，并通过人工交叉验证确保超过8.4万实例标注的精确性，整个流程耗费约2000人时，凸显了大规模时序姿态标注的复杂性与资源密集性。

常用场景

经典使用场景

在计算机视觉领域，动物姿态估计与追踪是理解动物行为的关键任务。APTv2数据集通过提供大规模、多物种的视频序列与高质量关键点标注，成为该领域首个综合性基准。其经典使用场景包括评估单帧动物姿态估计模型的性能，特别是在跨物种和跨家族场景下的泛化能力。研究者利用该数据集对卷积神经网络和视觉Transformer等代表性方法进行系统比较，探索不同预训练策略对模型迁移学习效果的影响，从而推动动物姿态估计技术的进步。

衍生相关工作

以APTv2数据集为基础，研究者们衍生出多项经典工作。其中，ViTPoseTrack作为该数据集提出的基线方法，采用共享骨干网络与任务特定头部的设计，验证了视觉Transformer在动物姿态追踪中的可扩展性。此外，围绕数据集的三个评估轨道（单帧姿态估计、低数据泛化与姿态追踪），涌现出大量改进模型，如结合HRNet与Transformer的混合架构、针对跨物种泛化的迁移学习框架等。这些工作不仅深化了对动物姿态计算的理解，也推动了视觉Transformer在复杂视觉任务中的应用边界扩展。

数据集最近研究