UCF-101, HMDB-51

github2024-05-08 更新2024-05-31 收录

下载链接：

https://github.com/Emily0219/video-dataset-preprocess

下载链接

链接失效反馈

官方服务：

资源简介：

UCF-101和HMDB-51是两个视频数据集，用于训练和测试视频处理模型。UCF-101包含101个动作类别，每个类别有100多个视频。HMDB-51包含51个动作类别，每个类别至少有101个视频。

UCF-101 and HMDB-51 are two video datasets utilized for training and testing video processing models. UCF-101 comprises 101 action categories, with each category containing over 100 videos. HMDB-51 includes 51 action categories, each consisting of at least 101 videos.

创建时间：

2020-05-03

原始信息汇总

数据集概述

数据集名称

UCF-101
HMDB-51

数据集下载

UCF-101: 下载链接
HMDB-51: 下载链接

数据集结构

UCF-101

UCF-101 ├── ApplyEyeMakeup │ ├── v_ApplyEyeMakeup_g01_c01.avi │ └── ... ├── ApplyLipstick │ ├── v_ApplyLipstick_g01_c01.avi │ └── ... ├── Archery │ ├── v_Archery_g01_c01.avi │ └── ...

HMDB-51

HMDB51 ├── brush_hair │ ├── April_09_brush_hair_u_nm_np1_ba_goo_0.avi │ └── ... ├── cartwheel │ ├── (Rad)Schlag_die_Bank!_cartwheel_f_cm_np1_le_med_0.avi │ └── ... ├── catch │ ├── 96-_Torwarttraining_1_catch_f_cm_np1_le_bad_0.avi │ └── ...

预处理步骤

UCF-101

视频文件转换为JPG格式：使用utils/video2jpg_ucf101_hmdb51.py
生成帧数文件：使用utils/n_frames_ucf101_hmdb51.py

HMDB-51

视频文件转换为JPG格式：使用utils/video2jpg_ucf101_hmdb51.py
生成帧数文件：使用utils/n_frames_ucf101_hmdb51.py
生成标注文件：使用utils/hmdb_gen_txt.py

预处理后数据结构

UCF-101

UCF101_n_frames ├── ApplyEyeMakeup │ ├── v_ApplyEyeMakeup_g01_c01 │ │ ├── image_00001.jpg │ │ ├── ... │ │ └── n_frames │ └── ... ├── ApplyLipstick │ ├── v_ApplyLipstick_g01_c01 │ │ ├── image_00001.jpg │ │ ├── ... │ │ └── n_frames │ └── ... ├── Archery │ ├── v_Archery_g01_c01 │ │ ├── image_00001.jpg │ │ ├── ... │ │ └── n_frames │ └── ...

HMDB-51

hmdb51_n_frames ├── brush_hair │ ├── April_09_brush_hair_u_nm_np1_ba_goo_0 │ │ ├── image_00001.jpg │ │ ├── ... │ │ └── n_frames │ └── ... ├── cartwheel │ │ ├── image_00001.jpg │ │ ├── ... │ │ └── n_frames │ └── ... ├── catch │ ├── 96-_Torwarttraining_1_catch_f_cm_np1_le_bad_0 │ │ ├── image_00001.jpg │ │ ├── ... │ │ └── n_frames │ └── ...

数据加载

使用PyTorch加载数据：示例代码使用HMDBDataset类加载HMDB-51数据集。

引用信息

数据集处理代码参考自3D-ResNets-PyTorch。
引用文献：Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

搜集汇总

数据集介绍

构建方式

在构建UCF-101和HMDB-51数据集时，首先从官方网站下载视频文件及其对应的训练和测试分割列表。随后，将视频文件按照预定义的目录结构进行组织，并使用提供的Python脚本将视频从AVI格式转换为JPG图像序列。此外，通过运行另一个脚本生成每个视频的帧数文件，确保数据集的完整性和一致性。最终，经过预处理的数据集以层次化的目录结构存储，便于后续的模型训练和评估。

特点

UCF-101和HMDB-51数据集的显著特点在于其丰富的动作类别和多样化的视频内容。UCF-101包含101个动作类别，而HMDB-51则涵盖51个动作类别，两者均提供了详细的训练和测试分割列表，便于研究者进行模型训练和性能评估。此外，数据集的预处理步骤确保了视频数据的格式统一，便于在深度学习框架中高效加载和处理。

使用方法

使用UCF-101和HMDB-51数据集时，首先需加载预处理后的图像数据和标签文件。通过调用PyTorch中的自定义数据加载器，如HMDBDataset，可以方便地加载训练和测试数据。用户需指定图像数据的存储路径、标签文件路径以及所需的分割类型（如训练、测试），并可进一步设置剪辑长度等参数，以适应不同的模型需求。这种灵活的数据加载方式使得数据集能够广泛应用于视频动作识别等任务中。

背景与挑战

背景概述

UCF-101和HMDB-51是两个广泛应用于视频动作识别研究的数据集。UCF-101由佛罗里达中央大学（UCF）的计算视觉与学习中心（CRCV）于2012年发布，包含101个动作类别，涵盖日常生活中的多种行为。HMDB-51则由布朗大学的Serre实验室于2011年推出，包含51个动作类别，主要聚焦于人类动作的识别。这两个数据集的发布极大地推动了视频理解领域的发展，为研究人员提供了丰富的视频数据资源，促进了动作识别、视频分类等任务的研究进展。

当前挑战

UCF-101和HMDB-51数据集在构建和应用过程中面临多项挑战。首先，视频数据的多样性和复杂性使得数据预处理变得尤为关键，包括视频格式转换、帧提取和标注文件生成等步骤，这些过程需要高效且精确的处理工具。其次，视频动作识别任务本身具有较高的难度，因为动作的时序性和空间性特征需要复杂的模型来捕捉。此外，数据集的规模和类别多样性也对模型的泛化能力和计算资源提出了更高的要求。

常用场景

经典使用场景

在视频理解领域，UCF-101和HMDB-51数据集被广泛用于动作识别任务。这些数据集包含了多样化的动作类别，如日常活动、体育运动等，为研究人员提供了丰富的视频样本。通过将视频帧转换为图像序列，并结合标签文件，研究者可以训练和评估各种深度学习模型，特别是3D卷积神经网络（3D CNNs），以捕捉视频中的时空特征，从而实现高效的动作分类和识别。

衍生相关工作

基于UCF-101和HMDB-51数据集，许多经典的工作得以展开。例如，Kensho Hara等人提出的3D ResNets模型，通过在这些数据集上进行训练和测试，展示了3D CNNs在视频理解中的强大能力。此外，许多研究者还基于这些数据集开发了新的动作识别算法，如基于注意力机制的模型和多模态融合技术。这些工作不仅推动了动作识别领域的发展，也为其他视频理解任务提供了重要的参考和启发。

数据集最近研究