UCF-101|动作识别数据集|视频分析数据集

github2024-11-26 更新2024-11-28 收录

动作识别

视频分析

下载链接：

https://github.com/huiwon-jang/CoordTok

下载链接

链接失效反馈

资源简介：

UCF-101是一个用于动作识别的视频数据集，包含101个动作类别和超过13,000个视频片段。

创建时间：

2024-11-18

原始信息汇总

数据集概述

数据集下载

数据集名称: UCF-101
下载链接: UCF-101.rar
下载命令: bash cd [DATA_ROOT] wget https://www.crcv.ucf.edu/data/UCF101/UCF101.rar --no-check-certificate unrar x UCF101.rar

数据集预处理

预处理脚本: split_ucf.py
预处理命令: bash cd CoordTok/data python split_ucf.py --data_root [DATA_ROOT] --data_name UCF-101

数据集结构

数据集路径: [DATA_ROOT]/UCF-101_train
结构示例:

[DATA_ROOT]/UCF-101_train |-- class1 |-- video1.avi |-- video2.avi |-- ... |-- class2 |-- video1.avi |-- video2.avi |-- ... ...

训练脚本

CoordTok训练脚本: bash torchrun --nnodes=1 --nproc_per_node=N train_coordtok.py --data_root [DATA_ROOT] --num_views 256 --num_iters 1000001 --accum_iter M --enc_embed_dim 1024 --enc_num_layers 24 --enc_num_heads 16 --enc_patch_num_layers 8 --dec_embed_dim 1024 --dec_num_layers 24 --dec_num_heads 16 --point_per_vid 1024 --allow_tf32 --lpips_loss_scale 0.0

评估脚本

CoordTok视频重建: python import torch from models.coordtok.coordtok_model import CoordTok from tools.utils_coordtok import decode_video

model = CoordTok(video_shape=(128,128,128), # Shape (T, H, W) enc_embed_dim=1024, enc_num_layers=24, enc_num_heads=16, enc_patch_size_xy=16, enc_patch_size_t=8, enc_patch_type=transformer, enc_patch_num_layers=8, latent_resolution_xy=16, latent_resolution_t=8, latent_n_features=8, latent_patch_size_xy=8, latent_patch_size_t=16, dec_embed_dim=1024, dec_num_layers=24, dec_num_heads=16, dec_patch_size_xy=8, dec_patch_size_t=1, lpips_loss_scale=0).cuda()

x = torch.zeros(1, 128, 128, 128, 3).cuda() # Shape (BS, T, H, W, 3) / Range [-1, 1] n_frames = torch.tensor([[128]], dtype=torch.int64).cuda() # Shape (BS, 1)

z_xy, z_yt, z_xt = model.encode(x, n_frames) # triplane representation

x_recon = decode_video(model, params=[z_xy, z_yt, z_xt], img_size=128, num_frames=128, patch_pred=(1, 8, 8), # Shape (dec_patch_size_t, dec_patch_size_xy, dec_patch_size_xy) max_num_frames=128, Nslice=1) # Range [-1, 1] x_recon = (x_recon+1)/2 x_recon = torch.clamp(x_recon, 0, 1) # Range [0, 1]

AI搜集汇总

数据集介绍

构建方式

UCF-101数据集的构建基于广泛的视频分类任务需求，通过从UCF（University of Central Florida）收集的多样化视频片段组成。这些视频片段涵盖了101种不同的动作类别，每个类别包含多个视频实例。数据集的构建过程包括视频的下载、解压缩以及预处理，以确保视频文件的格式和质量符合后续分析和模型训练的要求。预处理步骤包括将视频分割成训练集和测试集，以便于模型的训练和验证。

特点

UCF-101数据集以其丰富的动作类别和高分辨率的视频片段著称，为视频分类和动作识别研究提供了宝贵的资源。该数据集的显著特点在于其多样性和广泛性，涵盖了从日常活动到专业运动的多种动作类型。此外，数据集的组织结构清晰，便于研究人员快速定位和使用所需的视频数据。

使用方法

使用UCF-101数据集进行模型训练时，首先需要下载并解压缩数据集文件。随后，通过预处理脚本将数据集分割为训练集和测试集。在训练过程中，研究人员可以根据需要调整模型的参数，如嵌入维度、层数和头数等，以优化模型的性能。训练完成后，可以使用提供的评估脚本对模型进行测试，以验证其在视频重建和生成任务中的表现。

背景与挑战

背景概述

UCF-101数据集是由KAIST和UC Berkeley的研究团队共同创建的，主要用于视频动作识别任务。该数据集包含了101种不同的动作类别，涵盖了广泛的人类活动，为研究者提供了一个丰富的资源来探索和改进视频分析技术。UCF-101的创建旨在解决视频动作识别中的关键问题，即如何在复杂和多样化的视频数据中准确地识别和分类动作。这一数据集的发布极大地推动了视频分析领域的发展，为后续的研究和应用奠定了坚实的基础。

当前挑战

UCF-101数据集在构建过程中面临了多个挑战。首先，视频数据的多样性和复杂性使得动作识别任务变得异常困难，尤其是在处理不同光照、背景和视角变化时。其次，数据集的规模和类别多样性要求高效的算法和计算资源来处理和分析。此外，视频数据的预处理和标注也是一个巨大的挑战，需要精确的手动标注和复杂的预处理技术。这些挑战不仅影响了数据集的构建，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

在视频分析领域，UCF-101数据集的经典使用场景主要集中在动作识别任务上。该数据集包含了101种不同的动作类别，如跳跃、跑步和打篮球等，为研究人员提供了一个丰富的视频资源库。通过使用UCF-101数据集，研究者可以训练和验证各种动作识别算法，从而推动视频理解技术的发展。

衍生相关工作

基于UCF-101数据集，许多相关的经典工作得以展开。例如，研究者们开发了多种基于深度学习的动作识别模型，如3D卷积神经网络和双流网络，这些模型在UCF-101上的表现显著优于传统方法。此外，该数据集还激发了关于视频数据增强和数据集扩展的研究，进一步推动了视频分析技术的前沿发展。

数据集最近研究

最新研究方向

在视频处理领域，UCF-101数据集的最新研究方向主要集中在高效的长视频标记化技术上。具体而言，研究者们致力于通过坐标基的补丁重构方法来提升视频数据的处理效率。这种方法不仅能够有效减少计算资源的消耗，还能在保持高精度的同时，加速视频数据的处理流程。这一研究方向的进展对于视频分析、视频生成以及视频压缩等应用具有重要的实际意义，尤其是在处理大规模视频数据时，其优势尤为明显。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

中国行政区划数据

本项目为中国行政区划数据，包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局，存储格式为sqlite3 db文件，支持直接使用数据库连接工具打开。

github 收录

The Global Forest Watch (GFW)

The Global Forest Watch (GFW) 是一个全球森林监测平台，提供关于森林覆盖变化、火灾、森林砍伐和土地利用的实时数据和分析。数据集包括全球森林覆盖地图、森林砍伐警报、火灾热点、土地覆盖变化等信息。

globalforestwatch.org 收录