HACS (Human Action Clips and Segments)

Name: HACS (Human Action Clips and Segments)
Creator: 麻省理工学院
Published: 2019-09-04 15:35:48
License: 暂无描述

arXiv2019-09-04 更新2024-06-21 收录

下载链接：

http://hacs.csail.mit.edu

下载链接

链接失效反馈

官方服务：

资源简介：

HACS数据集是由麻省理工学院创建的一个大规模人类动作识别和时间定位数据集。该数据集包含150万个标注的短动作片段，这些片段是从50.4万个未修剪的视频中采样得到的。HACS数据集的创建过程利用了视觉分类器之间的共识和分歧来自动挖掘候选短片段，并由人工标注者进行验证。该数据集不仅作为大规模动作识别基准，还是时空特征学习的优秀资源。HACS数据集的应用领域包括动作识别和时间定位，旨在解决视频中动作识别和定位的挑战。

The HACS dataset is a large-scale human action recognition and temporal localization dataset developed by the Massachusetts Institute of Technology (MIT). This dataset contains 1.5 million annotated short action segments, which are sampled from 504,000 untrimmed videos. The construction pipeline of the HACS dataset leverages the consensus and disagreement among visual classifiers to automatically mine candidate short segments, which are subsequently verified by human annotators. Serving not only as a large-scale benchmark for action recognition, the dataset also constitutes an exceptional resource for spatial-temporal feature learning. The application scenarios of the HACS dataset cover action recognition and temporal localization, aiming to address the challenges of action recognition and localization in videos.

提供机构：

麻省理工学院

创建时间：

2017-12-27

搜集汇总

数据集介绍

构建方式

在视频理解领域，大规模标注数据集的构建是推动算法进步的关键。HACS数据集的构建采用了创新的稀疏采样与密集标注相结合的策略。研究者首先从YouTube检索了超过50万段未修剪视频，并基于图像分类器的共识与分歧机制，自动筛选出候选的2秒短片段。这些片段随后经过人工验证，形成包含150万标注片段的HACS Clips子集。同时，通过另一独立流程，在5万段视频中进行了密集的时间段边界标注，生成了包含13.9万动作片段的HACS Segments子集。整个构建过程严格遵循去重和质量控制协议，确保了数据的高质量和多样性。

特点

HACS数据集以其前所未有的规模与精细的标注结构脱颖而出。该数据集涵盖200个人类动作类别，其HACS Clips子集拥有150万标注片段，远超同类基准，为时空特征学习提供了丰富资源。HACS Segments子集则通过密集的时间边界标注，平均每段视频包含更多且更短的动作片段，对时序定位算法提出了更高分辨率的挑战。此外，数据集同时包含正负样本，并融合了稀疏片段标注与密集片段标注，为弱监督学习等前沿研究方向提供了独特支持。

使用方法

HACS数据集为视频动作识别与时序定位研究提供了多功能的基准平台。对于动作识别任务，研究者可直接在HACS Clips上训练深度模型，如I3D或R(2+1)D，利用其大规模标注学习通用的时空表征，并可迁移至UCF101、HMDB51等较小规模数据集进行微调，以验证特征泛化能力。对于时序动作定位，HACS Segments可用于训练和评估如BSN、TAG等提案生成模型，以及SSN等动作定位模型。其密集且精确的边界标注尤其适合推动高精度时序检测方法的发展。数据集的标准训练、验证和测试划分确保了评估的公平性与可重复性。

背景与挑战

背景概述

在计算机视觉领域，视频理解尤其是人类动作识别与定位，长期以来受限于大规模标注数据的匮乏。HACS（Human Action Clips and Segments）数据集由麻省理工学院、达特茅斯学院和伊利诺伊大学厄巴纳-香槟分校的研究团队于2019年共同创建，旨在应对这一瓶颈。该数据集的核心研究问题是推动未修剪视频中人类动作的细粒度识别与时间定位，其创新性地融合了稀疏剪辑标注与密集片段标注，涵盖200个动作类别。HACS凭借其150万个人工标注剪辑和13.9万个密集时间片段，迅速成为动作理解领域的重要基准，显著提升了时空特征学习的泛化能力，并为弱监督学习等前沿方向提供了新的数据基础。

当前挑战

HACS数据集致力于解决视频动作识别与时间定位的双重挑战。在领域问题层面，其密集时间标注引入了更精细的定位难度，平均片段持续时间较ActivityNet缩短约20%，且每视频动作片段数量增加1.8倍，要求模型具备更高时间分辨率和判别性特征表示能力。在构建过程中，研究团队面临候选剪辑自动挖掘的挑战，需平衡图像分类器的共识与分歧以筛选高质量样本，同时避免引入数据集偏差。此外，大规模视频去重、跨数据集重叠处理以及设计能够减少动作定义模糊性的标注指南，均是保障数据质量与一致性的关键难题。

常用场景

经典使用场景

在计算机视觉领域，人类动作理解的研究长期受限于标注数据的规模与质量。HACS数据集通过其大规模、精细标注的特性，为动作识别与时间定位任务提供了经典的应用场景。该数据集广泛用于训练和评估深度时空模型，如I3D和R(2+1)D，以提升模型在复杂视频中对人类动作的识别与定位能力。研究者利用HACS Clips进行动作分类预训练，再通过HACS Segments验证模型在未修剪视频中精确划定动作边界的效果，从而推动动作理解技术的边界。

衍生相关工作

HACS数据集的发布催生了一系列围绕大规模视频理解的经典研究工作。在动作识别方面，基于HACS Clips预训练的I3D和R(2+1)D模型在UCF101、HMDB51等基准上取得了领先性能，验证了其作为优质预训练源的有效性。在动作定位领域，研究者在HACS Segments上评估并改进了如边界敏感网络（BSN）和时间动作分组（TAG）等提案生成方法，以及结构化片段网络（SSN）等定位方法。这些工作不仅提升了模型在密集、短时动作片段上的定位精度，也推动了弱监督动作定位等新方向的发展。

数据集最近研究