five

UCF-101

收藏
github2024-11-26 更新2024-11-28 收录
下载链接:
https://github.com/huiwon-jang/CoordTok
下载链接
链接失效反馈
官方服务:
资源简介:
UCF-101是一个用于动作识别的视频数据集,包含101个动作类别和超过13,000个视频片段。

UCF-101 is a video dataset for action recognition, which contains 101 action categories and over 13,000 video clips.
创建时间:
2024-11-18
原始信息汇总

数据集概述

数据集下载

  • 数据集名称: UCF-101
  • 下载链接: UCF-101.rar
  • 下载命令: bash cd [DATA_ROOT] wget https://www.crcv.ucf.edu/data/UCF101/UCF101.rar --no-check-certificate unrar x UCF101.rar

数据集预处理

  • 预处理脚本: split_ucf.py
  • 预处理命令: bash cd CoordTok/data python split_ucf.py --data_root [DATA_ROOT] --data_name UCF-101

数据集结构

  • 数据集路径: [DATA_ROOT]/UCF-101_train

  • 结构示例:

    [DATA_ROOT]/UCF-101_train |-- class1 |-- video1.avi |-- video2.avi |-- ... |-- class2 |-- video1.avi |-- video2.avi |-- ... ...

训练脚本

  • CoordTok训练脚本: bash torchrun --nnodes=1 --nproc_per_node=N train_coordtok.py --data_root [DATA_ROOT] --num_views 256 --num_iters 1000001 --accum_iter M --enc_embed_dim 1024 --enc_num_layers 24 --enc_num_heads 16 --enc_patch_num_layers 8 --dec_embed_dim 1024 --dec_num_layers 24 --dec_num_heads 16 --point_per_vid 1024 --allow_tf32 --lpips_loss_scale 0.0

评估脚本

  • CoordTok视频重建: python import torch from models.coordtok.coordtok_model import CoordTok from tools.utils_coordtok import decode_video

    model = CoordTok(video_shape=(128,128,128), # Shape (T, H, W) enc_embed_dim=1024, enc_num_layers=24, enc_num_heads=16, enc_patch_size_xy=16, enc_patch_size_t=8, enc_patch_type=transformer, enc_patch_num_layers=8, latent_resolution_xy=16, latent_resolution_t=8, latent_n_features=8, latent_patch_size_xy=8, latent_patch_size_t=16, dec_embed_dim=1024, dec_num_layers=24, dec_num_heads=16, dec_patch_size_xy=8, dec_patch_size_t=1, lpips_loss_scale=0).cuda()

    x = torch.zeros(1, 128, 128, 128, 3).cuda() # Shape (BS, T, H, W, 3) / Range [-1, 1] n_frames = torch.tensor([[128]], dtype=torch.int64).cuda() # Shape (BS, 1)

    z_xy, z_yt, z_xt = model.encode(x, n_frames) # triplane representation

    x_recon = decode_video(model, params=[z_xy, z_yt, z_xt], img_size=128, num_frames=128, patch_pred=(1, 8, 8), # Shape (dec_patch_size_t, dec_patch_size_xy, dec_patch_size_xy) max_num_frames=128, Nslice=1) # Range [-1, 1] x_recon = (x_recon+1)/2 x_recon = torch.clamp(x_recon, 0, 1) # Range [0, 1]

搜集汇总
数据集介绍
main_image_url
构建方式
UCF-101数据集的构建基于广泛的视频分类任务需求,通过从UCF(University of Central Florida)收集的多样化视频片段组成。这些视频片段涵盖了101种不同的动作类别,每个类别包含多个视频实例。数据集的构建过程包括视频的下载、解压缩以及预处理,以确保视频文件的格式和质量符合后续分析和模型训练的要求。预处理步骤包括将视频分割成训练集和测试集,以便于模型的训练和验证。
特点
UCF-101数据集以其丰富的动作类别和高分辨率的视频片段著称,为视频分类和动作识别研究提供了宝贵的资源。该数据集的显著特点在于其多样性和广泛性,涵盖了从日常活动到专业运动的多种动作类型。此外,数据集的组织结构清晰,便于研究人员快速定位和使用所需的视频数据。
使用方法
使用UCF-101数据集进行模型训练时,首先需要下载并解压缩数据集文件。随后,通过预处理脚本将数据集分割为训练集和测试集。在训练过程中,研究人员可以根据需要调整模型的参数,如嵌入维度、层数和头数等,以优化模型的性能。训练完成后,可以使用提供的评估脚本对模型进行测试,以验证其在视频重建和生成任务中的表现。
背景与挑战
背景概述
UCF-101数据集是由KAIST和UC Berkeley的研究团队共同创建的,主要用于视频动作识别任务。该数据集包含了101种不同的动作类别,涵盖了广泛的人类活动,为研究者提供了一个丰富的资源来探索和改进视频分析技术。UCF-101的创建旨在解决视频动作识别中的关键问题,即如何在复杂和多样化的视频数据中准确地识别和分类动作。这一数据集的发布极大地推动了视频分析领域的发展,为后续的研究和应用奠定了坚实的基础。
当前挑战
UCF-101数据集在构建过程中面临了多个挑战。首先,视频数据的多样性和复杂性使得动作识别任务变得异常困难,尤其是在处理不同光照、背景和视角变化时。其次,数据集的规模和类别多样性要求高效的算法和计算资源来处理和分析。此外,视频数据的预处理和标注也是一个巨大的挑战,需要精确的手动标注和复杂的预处理技术。这些挑战不仅影响了数据集的构建,也对后续的研究和应用提出了更高的要求。
常用场景
经典使用场景
在视频分析领域,UCF-101数据集的经典使用场景主要集中在动作识别任务上。该数据集包含了101种不同的动作类别,如跳跃、跑步和打篮球等,为研究人员提供了一个丰富的视频资源库。通过使用UCF-101数据集,研究者可以训练和验证各种动作识别算法,从而推动视频理解技术的发展。
衍生相关工作
基于UCF-101数据集,许多相关的经典工作得以展开。例如,研究者们开发了多种基于深度学习的动作识别模型,如3D卷积神经网络和双流网络,这些模型在UCF-101上的表现显著优于传统方法。此外,该数据集还激发了关于视频数据增强和数据集扩展的研究,进一步推动了视频分析技术的前沿发展。
数据集最近研究
最新研究方向
在视频处理领域,UCF-101数据集的最新研究方向主要集中在高效的长视频标记化技术上。具体而言,研究者们致力于通过坐标基的补丁重构方法来提升视频数据的处理效率。这种方法不仅能够有效减少计算资源的消耗,还能在保持高精度的同时,加速视频数据的处理流程。这一研究方向的进展对于视频分析、视频生成以及视频压缩等应用具有重要的实际意义,尤其是在处理大规模视频数据时,其优势尤为明显。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作