HAA500
收藏arXiv2021-08-17 更新2024-06-21 收录
下载链接:
https://www.cse.ust.hk/haa
下载链接
链接失效反馈官方服务:
资源简介:
HAA500是一个以人为中心、精细标注的原子动作数据集,包含500个类别,超过591000个标注帧。该数据集旨在减少动作分类中的歧义,通过精细的原子动作分类,确保同一标签下的动作一致性。HAA500通过精心策划的视频,捕捉人类动作的精确运动,减少类别无关的动作或时空标签噪声。数据集具有高度的可扩展性,每新增一个类别仅需20-60分钟。HAA500适用于训练深度学习模型,通过关注原子级的人体姿态,提高预测准确性。数据集的应用领域包括动作识别和视频理解,旨在解决现有数据集中存在的动作分类歧义问题。
HAA500 is a human-centric, finely annotated atomic action dataset containing 500 categories and over 591,000 annotated frames. This dataset aims to reduce ambiguity in action classification, ensuring consistent action representations under the same label via fine-grained atomic action categorization. HAA500 captures precise movements of human actions through meticulously curated videos, minimizing category-irrelevant actions and spatio-temporal label noise. The dataset features high scalability, requiring merely 20–60 minutes to add a new category. HAA500 is suitable for training deep learning models, improving prediction accuracy by focusing on atomic-level human poses. Its application domains include action recognition and video understanding, and it is designed to address the action classification ambiguity issue present in existing datasets.
提供机构:
香港科技大学
创建时间:
2020-09-11
搜集汇总
数据集介绍

构建方式
在动作识别领域,现有数据集常因粗粒度标注和无关帧干扰而引入歧义。HAA500的构建采用自上而下的精细流程,首先确立涵盖体育、乐器演奏、游戏与日常行为四大领域的500个细粒度原子动作类别,确保每个类别仅包含语义一致的动作。视频素材从YouTube平台筛选,分辨率不低于720p,每个类别包含20段视频,且所有视频均来自不同的原始素材以增强多样性。关键之处在于采用帧级精确裁剪,每段视频的起止帧严格对应动作的起始与结束时刻,彻底消除了无关动作片段和镜头切换的干扰,从而构建出一个纯净且类别平衡的数据集。
特点
HAA500的核心特征体现在其人类中心化、原子化与高度纯净性。数据集中平均69.7%的人体关节点可被清晰检测,确保了模型能够聚焦于人体姿态而非背景或物体。其标注的原子性超越了基于英语动词的粗粒度划分,将动作分解至如“棒球投球”与“篮球罚球”等具有显著视觉差异的细粒度类别,有效消除了类内歧义。此外,数据集通过严格的帧级裁剪,完全避免了现有数据集中常见的无关帧、相机切换或多人物干扰等问题,提供了每帧都具有清洁标签的视频片段。这种设计使得数据集虽规模精炼,却具备高度的可扩展性和对动作本质的强表征能力。
使用方法
HAA500为原子动作识别研究提供了高质量的基准。数据集已按16:1:3的比例划分为训练集、验证集和测试集,共计10,000段视频,可直接用于模型训练与评估。其清洁的帧级标注和人类中心化特性,使其特别适合用于研究基于姿态的动作识别模型,或探索RGB信息与姿态信息的融合方法。研究者可利用该数据集训练模型以关注原子化的人体姿态,进而提升对复合动作的分类性能。跨数据集实验表明,即使在HAA500上训练的基线模型,也能通过迁移学习提升在“野外”数据集上的性能,验证了其表征能力的可迁移性。数据集的细粒度特性也有助于探究时序采样密度、动作时长归一化等因素对识别性能的影响。
背景与挑战
背景概述
HAA500数据集由香港科技大学等机构的研究团队于2020年提出,旨在解决细粒度人体原子动作识别中的标注模糊性问题。该数据集包含500个精心筛选的原子动作类别,涵盖体育竞技、乐器演奏、日常活动等多个领域,每个类别均通过人工标注确保动作语义的一致性。相较于传统复合动作数据集,HAA500强调以人为中心的视频采集,平均关节检测率高达69.7%,有效推动了动作识别模型从场景依赖向人体姿态理解的关键转变。
当前挑战
HAA500面临的挑战主要体现在两个方面:其一,在领域问题层面,传统动作识别数据集中存在的复合动作标注模糊性(如“投掷”类别包含棒球投掷与篮球罚球等差异显著的动作)严重制约了模型对细粒度人体姿态的辨识能力;其二,在构建过程中,需克服视频片段中无关帧干扰、多人物交互导致的注意力分散,以及确保每类动作在时间维度上的精确裁剪,这些因素对数据集的纯净度与可扩展性提出了极高要求。
常用场景
经典使用场景
在细粒度人体动作识别领域,HAA500数据集凭借其精心标注的原子动作类别,成为评估模型区分细微动作差异能力的基准工具。该数据集通过提供500类高度细分的原子动作,如“棒球投球”与“篮球罚球”的明确区分,有效避免了传统数据集中因粗粒度标注导致的语义模糊问题。研究者通常利用HAA500训练深度学习模型,以验证模型在捕捉人体姿态细微变化方面的性能,尤其在需要精确理解动作语义的场景中,该数据集展现了其独特价值。
解决学术问题
HAA500主要解决了动作识别研究中因粗粒度标注引发的语义歧义问题。传统数据集如Kinetics或AVA常将多种动作归为同一类别,导致模型难以学习到精准的动作特征。HAA500通过细粒度原子动作标注,消除了不同动作间的视觉混淆,使模型能够专注于人体姿态的本质差异。此外,其高可检测关节比例(平均69.7%)强调了人体中心化特性,推动了模型从依赖背景信息向理解人体动作本身的转变,为动作理解的本质研究提供了可靠数据基础。
衍生相关工作
HAA500的发布促进了多项围绕细粒度动作识别的研究工作。基于其人体中心化特性,研究者开发了专注于姿态特征提取的模型架构,如结合骨骼点热图与RGB帧的多流网络。该数据集也被用于探索原子动作标注对复合动作分类的增益效应,验证了细粒度预训练提升模型泛化能力的假设。此外,其与FineGym等数据集的对比研究,深化了学术界对时序标注精度与数据规模权衡的理解,推动了动作识别领域向更精细化、可解释性更强的方向发展。
以上内容由遇见数据集搜集并总结生成



