APT-36K

Name: APT-36K
Creator: 杭州电子科技大学电子信息学院
Published: 2022-10-13 09:47:35
License: 暂无描述

arXiv2022-10-13 更新2024-06-21 收录

下载链接：

https://github.com/pandorgan/APT-36K

下载链接

链接失效反馈

官方服务：

资源简介：

APT-36K数据集是由杭州电子科技大学电子信息学院的研究团队创建的，旨在填补动物姿态估计和跟踪领域的数据集空白。该数据集包含2400个视频片段，每个视频包含15帧，总计36000帧，涉及30种不同的动物。通过16位训练有素的标注者的努力，以及严格的双重检查机制，APT-36K提供了高质量的关键点和跟踪标注。数据集不仅支持单帧姿态估计，还支持连续帧中的动物姿态跟踪，适用于多种研究场景，如动物行为理解和野生动物保护。

The APT-36K dataset was developed by a research team from the School of Electronic and Information Engineering, Hangzhou Dianzi University, aiming to fill the critical gap in the field of animal pose estimation and tracking. This dataset comprises 2400 video clips, each containing 15 frames, with a total of 36,000 frames, covering 30 distinct animal species. Through the efforts of 16 well-trained annotators and a rigorous double-check mechanism, APT-36K provides high-quality keypoint and tracking annotations. The dataset supports not only single-frame pose estimation but also animal pose tracking across consecutive frames, which is applicable to a variety of research scenarios including animal behavior understanding and wildlife conservation.

提供机构：

杭州电子科技大学电子信息学院

创建时间：

2022-06-12

搜集汇总

数据集介绍

构建方式

在动物姿态估计与追踪领域，数据集的构建需兼顾物种多样性与时序连贯性。APT-36K的构建始于从YouTube平台精心筛选2,400段视频片段，涵盖30个动物物种，并依据分类学将其归入15个科，以促进跨物种泛化研究。为确保视频片段中动物姿态具有显著的运动幅度，研究团队对每段视频进行了特定帧率的采样，最终每段视频保留15帧，总计36,000帧。标注过程由16位训练有素的标注员执行，严格遵循MS COCO的关键点标注规范，为每个动物实例标注17个关键点、边界框及跨视频的唯一追踪ID。所有标注均经过三轮人工交叉校验，整个流程耗费约2,000人时，保证了标注的高质量与一致性。

使用方法

APT-36K支持多种研究任务，主要包括单帧动物姿态估计、跨物种域泛化测试以及动物姿态追踪。在单帧姿态估计任务中，研究者可利用数据集训练基于CNN或视觉Transformer的模型，并可探索使用ImageNet、MS COCO或AP-10K等数据集进行预训练的效果。跨物种域泛化任务通过按动物科划分训练与测试集，评估模型对未见物种的泛化能力。动物姿态追踪任务则结合目标追踪器（如SiamRPN++、STARK、SwinTrack及自定义的ViTTrack）与姿态估计模型，实现对视频序列中动物实例的连续姿态追踪。数据集的划分遵循每物种7:1:2的比例分为训练、验证与测试集，且以视频为单位分割以避免帧间相似性干扰，确保评估的严谨性。

背景与挑战

背景概述

在计算机视觉领域，动物姿态估计与追踪作为理解动物行为及野生动物保护的关键技术，长期以来因缺乏兼具时序信息与多样物种的大规模数据集而发展受限。APT-36K数据集于2022年由杭州电子科技大学、悉尼大学、国防科技大学及京东探索研究院的联合团队推出，旨在填补这一空白。该数据集包含来自30个物种的2400个视频片段，总计36000帧图像，每帧均提供高质量的关键点与实例追踪标注。其核心研究问题聚焦于视频场景下的动物姿态估计与追踪，通过引入物种分类学层级结构，促进了跨物种域泛化能力的评估，为动物行为分析、生态监测等实际应用奠定了数据基础。

当前挑战

APT-36K所应对的领域挑战在于解决视频中动物姿态估计与追踪的联合任务，这要求模型在复杂动态场景下同时处理关键点检测与实例关联，克服遮挡、运动模糊及多实例交互等难题。构建过程中的挑战主要体现在数据采集与标注层面：从公开视频中筛选具有显著运动差异的片段需人工调整采样率以确保时序多样性；标注工作涉及16名专业标注员对17个关键点及实例轨迹进行精细化标注，并通过三轮交叉校验保障质量，整个流程耗费约2000人时，凸显了大规模高质量动物姿态数据构建的高成本与复杂性。

常用场景

经典使用场景

在动物行为分析与计算机视觉交叉领域，APT-36K数据集为视频序列中的动物姿态估计与追踪任务提供了首个大规模基准。该数据集通过包含30个物种、2400个视频片段及36000帧高质量标注图像，构建了涵盖复杂运动模式、多实例交互及遮挡场景的评估环境。其经典使用场景在于系统性地评测各类姿态估计算法在跨帧连续性任务中的性能，尤其聚焦于模型在真实世界视频中处理动物动态姿态变化与身份维持的能力，为算法在时序一致性、运动预测等方面的优化提供了关键数据支撑。

解决学术问题

APT-36K有效应对了动物姿态估计研究中长期存在的若干学术挑战。其一，填补了视频级动物姿态追踪数据集的空白，使得研究者能够同时探索姿态估计与实例追踪的联合优化问题。其二，通过涵盖15个动物科属的平衡数据分布，为跨物种域泛化研究提供了严谨的评估框架，尤其揭示了模型在未见物种上的泛化瓶颈。其三，该数据集支持对预训练迁移机制的深入探究，实证分析了人类姿态数据与动物姿态数据间的知识迁移效益，为少样本学习与跨域适应等前沿方向奠定了实验基础。

实际应用

在生态保护与动物行为学研究领域，APT-36K数据集的实际应用价值显著。其支持开发的视频姿态追踪技术可应用于野生动物监测系统，实现对自然栖息地中动物群体行为的无侵扰式量化分析，如迁徙模式研究、社会交互观测等。在畜牧管理与动物园智能化场景中，该技术能够自动识别动物的异常姿态或运动模式，为健康监测与福利评估提供数据依据。此外，在动画制作与虚拟现实领域，数据集可为生物运动仿真提供真实运动轨迹数据，提升数字角色的运动自然度。

数据集最近研究