UCF-101

github2024-11-26 更新2024-11-28 收录

下载链接：

https://github.com/huiwon-jang/CoordTok

下载链接

链接失效反馈

官方服务：

资源简介：

UCF-101是一个用于动作识别的视频数据集，包含101个动作类别和超过13,000个视频片段。

UCF-101 is a video dataset for action recognition, which contains 101 action categories and over 13,000 video clips.

创建时间：

2024-11-18

原始信息汇总

数据集概述

数据集下载

数据集名称: UCF-101
下载链接: UCF-101.rar
下载命令: bash cd [DATA_ROOT] wget https://www.crcv.ucf.edu/data/UCF101/UCF101.rar --no-check-certificate unrar x UCF101.rar

数据集预处理

预处理脚本: split_ucf.py
预处理命令: bash cd CoordTok/data python split_ucf.py --data_root [DATA_ROOT] --data_name UCF-101

数据集结构

数据集路径: [DATA_ROOT]/UCF-101_train
结构示例:

[DATA_ROOT]/UCF-101_train |-- class1 |-- video1.avi |-- video2.avi |-- ... |-- class2 |-- video1.avi |-- video2.avi |-- ... ...

训练脚本

CoordTok训练脚本: bash torchrun --nnodes=1 --nproc_per_node=N train_coordtok.py --data_root [DATA_ROOT] --num_views 256 --num_iters 1000001 --accum_iter M --enc_embed_dim 1024 --enc_num_layers 24 --enc_num_heads 16 --enc_patch_num_layers 8 --dec_embed_dim 1024 --dec_num_layers 24 --dec_num_heads 16 --point_per_vid 1024 --allow_tf32 --lpips_loss_scale 0.0

评估脚本

CoordTok视频重建: python import torch from models.coordtok.coordtok_model import CoordTok from tools.utils_coordtok import decode_video

model = CoordTok(video_shape=(128,128,128), # Shape (T, H, W) enc_embed_dim=1024, enc_num_layers=24, enc_num_heads=16, enc_patch_size_xy=16, enc_patch_size_t=8, enc_patch_type=transformer, enc_patch_num_layers=8, latent_resolution_xy=16, latent_resolution_t=8, latent_n_features=8, latent_patch_size_xy=8, latent_patch_size_t=16, dec_embed_dim=1024, dec_num_layers=24, dec_num_heads=16, dec_patch_size_xy=8, dec_patch_size_t=1, lpips_loss_scale=0).cuda()

x = torch.zeros(1, 128, 128, 128, 3).cuda() # Shape (BS, T, H, W, 3) / Range [-1, 1] n_frames = torch.tensor([[128]], dtype=torch.int64).cuda() # Shape (BS, 1)

z_xy, z_yt, z_xt = model.encode(x, n_frames) # triplane representation

x_recon = decode_video(model, params=[z_xy, z_yt, z_xt], img_size=128, num_frames=128, patch_pred=(1, 8, 8), # Shape (dec_patch_size_t, dec_patch_size_xy, dec_patch_size_xy) max_num_frames=128, Nslice=1) # Range [-1, 1] x_recon = (x_recon+1)/2 x_recon = torch.clamp(x_recon, 0, 1) # Range [0, 1]

搜集汇总

数据集介绍

构建方式

UCF-101数据集的构建基于广泛的视频分类任务需求，通过从UCF（University of Central Florida）收集的多样化视频片段组成。这些视频片段涵盖了101种不同的动作类别，每个类别包含多个视频实例。数据集的构建过程包括视频的下载、解压缩以及预处理，以确保视频文件的格式和质量符合后续分析和模型训练的要求。预处理步骤包括将视频分割成训练集和测试集，以便于模型的训练和验证。

特点

UCF-101数据集以其丰富的动作类别和高分辨率的视频片段著称，为视频分类和动作识别研究提供了宝贵的资源。该数据集的显著特点在于其多样性和广泛性，涵盖了从日常活动到专业运动的多种动作类型。此外，数据集的组织结构清晰，便于研究人员快速定位和使用所需的视频数据。

使用方法

使用UCF-101数据集进行模型训练时，首先需要下载并解压缩数据集文件。随后，通过预处理脚本将数据集分割为训练集和测试集。在训练过程中，研究人员可以根据需要调整模型的参数，如嵌入维度、层数和头数等，以优化模型的性能。训练完成后，可以使用提供的评估脚本对模型进行测试，以验证其在视频重建和生成任务中的表现。

背景与挑战

背景概述

UCF-101数据集是由KAIST和UC Berkeley的研究团队共同创建的，主要用于视频动作识别任务。该数据集包含了101种不同的动作类别，涵盖了广泛的人类活动，为研究者提供了一个丰富的资源来探索和改进视频分析技术。UCF-101的创建旨在解决视频动作识别中的关键问题，即如何在复杂和多样化的视频数据中准确地识别和分类动作。这一数据集的发布极大地推动了视频分析领域的发展，为后续的研究和应用奠定了坚实的基础。

当前挑战

UCF-101数据集在构建过程中面临了多个挑战。首先，视频数据的多样性和复杂性使得动作识别任务变得异常困难，尤其是在处理不同光照、背景和视角变化时。其次，数据集的规模和类别多样性要求高效的算法和计算资源来处理和分析。此外，视频数据的预处理和标注也是一个巨大的挑战，需要精确的手动标注和复杂的预处理技术。这些挑战不仅影响了数据集的构建，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

在视频分析领域，UCF-101数据集的经典使用场景主要集中在动作识别任务上。该数据集包含了101种不同的动作类别，如跳跃、跑步和打篮球等，为研究人员提供了一个丰富的视频资源库。通过使用UCF-101数据集，研究者可以训练和验证各种动作识别算法，从而推动视频理解技术的发展。

衍生相关工作

基于UCF-101数据集，许多相关的经典工作得以展开。例如，研究者们开发了多种基于深度学习的动作识别模型，如3D卷积神经网络和双流网络，这些模型在UCF-101上的表现显著优于传统方法。此外，该数据集还激发了关于视频数据增强和数据集扩展的研究，进一步推动了视频分析技术的前沿发展。

数据集最近研究