HACS (Human Action Clips and Segments)

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/hangzhaomit/HACS-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

HACS数据集包含两种手动标注：HACS Clips包含1.55M个2秒的片段标注；HACS Segments包含50K视频中的完整动作段落（从动作开始到结束）。该大规模数据集适用于预训练动作识别和定位模型，并作为时间动作定位的新基准。

The HACS dataset comprises two types of manual annotations: HACS Clips, which includes 1.55 million 2-second clip annotations, and HACS Segments, which contains complete action segments (from the start to the end of the action) in 50,000 videos. This large-scale dataset is suitable for pre-training action recognition and localization models, and serves as a new benchmark for temporal action localization.

创建时间：

2018-12-19

原始信息汇总

数据集概述

数据集名称

HACS (Human Action Clips and Segments)

数据集组成

HACS Clips: 包含1.55M个2秒的片段标注。
HACS Segments: 包含50K视频的完整动作段（从动作开始到结束）。

数据集用途

用于预训练动作识别和定位模型。
作为时间动作定位的新基准。

数据集版本

当前版本为v1.1.1，相较于v1.1，移除了一些无效视频。

数据集统计

训练集: 492748个视频，1509478个片段；37613个视频段。
验证集: 5981个视频，20245个片段；5981个视频段。
测试集: 5987个视频，20293个片段；5987个视频段。

标注文件格式

HACS Clips: 格式为CSV，包含类别名、YouTube ID、子集、开始时间、结束时间和标签。
HACS Segments: 格式为JSON，与ActivityNet数据集格式相同，包含数据库、标签、段、子集、持续时间和URL。

视频下载

需要安装youtube-dl和FFmpeg。
视频下载命令为python download_videos.py --root_dir ROOT_DIR [--dataset {all,segments}] [--shortside SHORTSIDE]。

测试视频和缺失视频请求

访问完整测试视频需提交请求。
缺失视频可通过运行python check_missing_videos.py生成missing.txt，并提交请求获取链接。

引用信息

bibtex @inproceedings{zhao2019hacs, title={Hacs: Human action clips and segments dataset for recognition and temporal localization}, author={Zhao, Hang and Torralba, Antonio and Torresani, Lorenzo and Yan, Zhicheng}, booktitle={Proceedings of the IEEE International Conference on Computer Vision}, pages={8668--8678}, year={2019} }

搜集汇总

数据集介绍

构建方式

HACS数据集通过精心设计，包含了两种类型的手动标注：HACS Clips和HACS Segments。HACS Clips提供了155万个2秒长的片段标注，而HACS Segments则涵盖了5万个视频的完整动作段落。这种构建方式不仅确保了数据集的规模和多样性，还为动作识别和定位模型的预训练提供了丰富的资源。

特点

HACS数据集的显著特点在于其大规模和精细的标注。HACS Clips的2秒片段标注为模型提供了高频次的动作识别训练样本，而HACS Segments的完整动作段落则有助于模型理解动作的开始和结束。此外，数据集的多样性和广泛覆盖的动作类别使其成为时间动作定位领域的新基准。

使用方法

使用HACS数据集时，用户首先需克隆GitHub仓库并解压标注文件。通过运行dataset_stats.py脚本，用户可以获取数据集的统计信息。对于视频下载，用户需安装youtube-dl和FFmpeg，并使用提供的脚本下载视频。此外，数据集还提供了测试视频和缺失视频的请求机制，确保用户能够获取完整的数据集。

背景与挑战

背景概述

HACS（Human Action Clips and Segments）数据集由麻省理工学院（MIT）的研究团队于2019年推出，旨在为动作识别和定位模型提供大规模的预训练数据。该数据集包含两种手动注释：HACS Clips包含155万个2秒的片段注释，而HACS Segments则涵盖了5万段视频的完整动作段（从动作开始到结束）。HACS不仅为动作识别和定位模型提供了丰富的训练资源，还为时间动作定位领域设立了新的基准。该数据集的推出显著推动了视频分析和计算机视觉领域的发展，特别是在动作识别和时间动作定位方面。

当前挑战

HACS数据集在构建过程中面临多项挑战。首先，大规模视频数据的收集和注释需要耗费大量人力和时间，确保注释的准确性和一致性是一个重大挑战。其次，视频数据的不稳定性，如视频质量的差异和部分视频的缺失，增加了数据处理的复杂性。此外，如何有效地管理和存储如此庞大的数据集，以及如何确保数据集的长期可用性和更新，也是需要解决的问题。最后，数据集的广泛应用需要解决跨平台和跨设备的兼容性问题，以确保模型在不同环境下的性能一致性。

常用场景

经典使用场景

HACS数据集在视频动作识别与定位领域具有广泛应用。其经典使用场景包括预训练动作识别模型和时间动作定位模型。通过提供大量2秒片段和完整动作段的数据，HACS为研究人员提供了丰富的资源，以提升模型在复杂场景中的识别准确性和定位精度。

衍生相关工作

HACS数据集的发布催生了多项相关经典工作。例如，基于HACS的预训练模型在多个动作识别竞赛中取得了优异成绩，推动了动作识别技术的进步。同时，HACS也为时间动作定位算法的研究提供了新的基准，促进了该领域算法的创新和发展。此外，HACS还激发了更多关于视频数据集构建和标注方法的研究，为视频分析领域带来了新的思路和方法。

数据集最近研究