APTv2
收藏arXiv2023-12-25 更新2024-06-21 收录
下载链接:
https://github.com/ViTAE-Transformer/APTv2
下载链接
链接失效反馈官方服务:
资源简介:
APTv2是由杭州电子科技大学和悉尼大学合作创建的大规模动物姿态估计和跟踪数据集,包含来自30种不同动物的2749个视频片段,总计41,235帧。数据集通过手动选择和标注,提供了高质量的关键点和跟踪标注,适用于评估动物姿态估计和跟踪方法。APTv2数据集的应用领域包括动物行为理解、野生动物保护等,旨在解决动物姿态估计和跟踪中的挑战。
APTv2 is a large-scale animal pose estimation and tracking dataset co-created by Hangzhou Dianzi University and The University of Sydney. It contains 2,749 video clips from 30 distinct animal species, with a total of 41,235 frames. The dataset provides high-quality keypoint and tracking annotations obtained through manual selection and annotation, which is suitable for evaluating animal pose estimation and tracking methods. The application fields of the APTv2 dataset include animal behavior understanding, wildlife conservation and other related areas, and it aims to address the challenges in animal pose estimation and tracking.
提供机构:
杭州电子科技大学电子信息学院
创建时间:
2023-12-25
搜集汇总
数据集介绍

构建方式
APTv2 数据集的构建始于对 YouTube 上 30 种不同动物物种的视频片段的筛选和收集,总计 2,749 个视频片段,每个视频片段包含 15 帧,共计 41,235 帧。为了确保数据质量,研究人员对视频进行了手动选择,确保视频具有高分辨率和多样化的背景。随后,视频以特定间隔提取帧以消除冗余并增加时间运动幅度。接着,18 名熟练的标注者根据 MS COCO 标注协议对每帧中的每个动物的关键点进行标注。这些标签经过严格的交叉验证以确保准确性。此外,每个动物在视频中的轨迹用边界框和唯一的实例 ID 标示。最终,APTv2 数据集包含 84,611 个动物实例的高质量关键点和跟踪标注,并根据帧中实例的数量分为简单和困难子集。
特点
APTv2 数据集的特点在于其规模庞大、物种多样以及连续帧中关键点、边界框和实例 ID 的丰富标注。该数据集覆盖 30 种不同的动物物种,跨越 15 个不同的分类单元,为评估姿势估计模型的跨物种和跨分类单元泛化能力提供了基础。APTv2 是第一个考虑动物姿势跟踪的大型数据集,尽管之前 Animal Kingdom 数据集也涵盖了动物姿势估计和跟踪,但它将这两个任务分开处理,不适合动物姿势跟踪任务。APTv2 包含 10 种不同类型的背景图像,为动物姿势估计和跟踪提供了多样化的场景。此外,APTv2 数据集根据难度级别分为简单和困难子集,有助于系统地研究使用这些子集进行训练和评估的影响。
使用方法
APTv2 数据集适用于动物姿势估计和跟踪研究。使用该数据集时,研究人员可以将其分为三个不同的任务:单帧动物姿势估计(SF 轨道)、低数据训练和泛化(LT 轨道)以及动物姿势跟踪(APT 轨道)。在 SF 轨道上,可以评估 CNN 和基于 ViT 的方法的性能,包括跨域和域内迁移学习。在 LT 轨道上,可以评估模型的跨物种域泛化能力。在 APT 轨道上,可以使用各种目标跟踪器来跟踪视频中的动物实例,并使用训练好的姿势估计模型来检测跟踪实例的关键点,从而评估其性能。此外,APTv2 还提供了一个名为 ViTPoseTrack 的简单基线方法,该方法具有共享的骨干网络和特定任务的头部分,用于动物姿势跟踪任务。
背景与挑战
背景概述
动物姿态估计与跟踪(APT)是计算机视觉中的一个关键任务,涉及跨一系列视频帧检测和监控动物的关键点,这对于理解动物行为至关重要。过去与动物相关的工作主要集中于动物跟踪或单帧动物姿态估计,忽略了这两个方面的整合。由于缺乏全面的APT数据集,限制了基于视频的动物姿态估计和跟踪方法的进步和评估,从而限制了其在现实世界的应用。为了填补这一空白,我们介绍了APTv2,这是动物姿态估计和跟踪的先驱大规模基准。APTv2由从30个不同动物物种中筛选和收集的2,749个视频剪辑组成。每个视频剪辑包括15帧,总计41,235帧。经过精心的人工标注和严格的验证,我们为总共84,611个动物实例提供了高质量的姿态和跟踪标注,并根据帧中实例的数量将它们分为简单和困难子集。以APTv2为基础,我们建立了一个简单的基线方法,名为ViTPoseTrack,并为三个轨道的代表模型提供了基准:(1)单帧动物姿态估计轨道,用于评估跨域和域内迁移学习的性能;(2)低数据迁移和泛化轨道,用于评估跨物种域泛化性能;(3)动物姿态跟踪轨道。我们的实验结果提供了关键的实证见解,表明APTv2是动物姿态估计和跟踪的有价值基准。它也为未来的研究提出了新的挑战和机遇。代码和数据集已发布。
当前挑战
APTv2数据集的创建为动物姿态估计和跟踪研究提供了新的机遇,同时也带来了一系列挑战。首先,该数据集包含了大量不同动物物种的视频剪辑,这为评估模型的泛化能力提出了挑战。其次,由于动物姿态的复杂性和多样性,如何准确地进行姿态标注是一个挑战。此外,该数据集还包含了多帧视频,如何在连续帧中跟踪动物姿态也是一个挑战。最后,随着模型规模的增加,如何有效地进行训练和推理也是一个挑战。
常用场景
经典使用场景
APTv2数据集是一个大规模的动物姿态估计和跟踪基准数据集,包含来自30个不同动物物种的2749个视频片段,共计41235帧。每个视频片段包括15帧,并提供高质量的关键点和跟踪注释。该数据集被广泛应用于动物姿态估计和跟踪研究,特别是在评估跨域迁移学习性能、低数据迁移和泛化能力以及动物姿态跟踪方面。例如,研究者可以利用APTv2数据集训练和测试不同的姿态估计模型,以评估其在不同动物物种上的性能和泛化能力。此外,APTv2数据集也常用于评估动物姿态跟踪模型,例如,通过使用目标跟踪器跟踪动物实例,并应用姿态估计模型检测跟踪实例的关键点,从而评估模型在动物姿态跟踪任务上的性能。
实际应用
APTv2数据集在实际应用中具有广泛的应用前景。例如,在野生动物保护领域,APTv2数据集可以帮助研究者监测野生动物的行为和活动,从而更好地了解它们的生态习性和生存状态。此外,APTv2数据集还可以应用于动物行为识别、动作识别等领域,为动物行为研究和野生动物保护提供重要的数据支持。此外,APTv2数据集还可以用于训练和评估动物姿态估计和跟踪模型,以提高模型的准确性和鲁棒性,从而为相关领域的实际应用提供更好的技术支持。
衍生相关工作
APTv2数据集的出现促进了许多相关经典工作的发展。例如,研究者可以利用APTv2数据集训练和测试不同的姿态估计模型,以评估其在不同动物物种上的性能和泛化能力。此外,APTv2数据集还可以用于评估动物姿态跟踪模型,例如,通过使用目标跟踪器跟踪动物实例,并应用姿态估计模型检测跟踪实例的关键点,从而评估模型在动物姿态跟踪任务上的性能。此外,APTv2数据集还可以用于训练和评估动物姿态估计和跟踪模型,以提高模型的准确性和鲁棒性,从而为相关领域的实际应用提供更好的技术支持。
以上内容由遇见数据集搜集并总结生成



