complete-Kinetics

Name: complete-Kinetics
Creator: 南京大学和中国阿里巴巴集团旗下的MyBank
Published: 2021-10-24 14:01:46
License: 暂无描述

arXiv2021-10-24 更新2024-07-30 收录

下载链接：

https://github.com/MCG-NJU/FSL-Video

下载链接

链接失效反馈

官方服务：

资源简介：

complete-Kinetics数据集是由南京大学和中国阿里巴巴集团旗下的MyBank创建，旨在为少样本视频分类提供更丰富的训练数据。该数据集包含49,325个视频，覆盖64个非重叠类别，用于训练、验证和测试。数据集的创建过程涉及对原始Kinetics数据集的扩展，确保了数据量的充足以支持深度模型的训练。该数据集主要应用于少样本学习领域，特别是在无需预训练的情况下，提高视频分类模型的泛化能力。

The Complete-Kinetics dataset was created by Nanjing University and MyBank, a subsidiary of Alibaba Group of China, aiming to provide richer training data for few-shot video classification. This dataset contains 49,325 videos covering 64 non-overlapping categories, and is used for training, validation and testing. The construction of this dataset involves expanding the original Kinetics dataset to ensure sufficient data volume for training deep models. This dataset is primarily applied in the field of few-shot learning, especially to enhance the generalization capability of video classification models without pre-training.

提供机构：

南京大学和中国阿里巴巴集团旗下的MyBank

创建时间：

2021-10-24

原始信息汇总

数据集概述

数据准备

数据集下载：Kinetics和Something-Something V2的少量样本版本可以从这里下载。
数据集分割：
- Kinetics数据集使用CMN的分割。
- Something-Something V2 (SSv2)数据集使用OTAM的分割。
数据集选择：如果已拥有完整版本的Kinetics和SSv2，可以使用./tools/select_kinetics100.py选择少量样本版本的数据集。
标注生成：使用./tools/write_kinetics100.py生成标注文件。

特征提取器训练

分类器方法：使用标准的ResNet50骨干网络和视频分类训练策略。详细信息请参考temporal-adaptive-module。
元学习方法：修改相应代码以确保数据集路径和文件名正确。例如，训练Meta-Baseline（其他超参数请参见论文），运行： bash CUDA_VISIBLE_DEVICES=0 python proto.py --work_dir [WORK_DIR] --dataset somethingotam

测试

分类器方法：修改./config/test_baseline.yaml并运行： bash CUDA_VISIBLE_DEVICES=0 python baseline_evaluate.py
元学习方法：运行： bash CUDA_VISIBLE_DEVICES=0 python proto.py --test_model True --checkpoint [CHECKPOINT] --dataset somethingotam
其他选项：请参考utils.py获取更多选项。

参考

本项目中修改和集成了以下代码：

搜集汇总

数据集介绍

构建方式

complete-Kinetics数据集是在Kinetics数据集的基础上构建的。Kinetics数据集包含了大量的人类动作视频，而complete-Kinetics则是在原有基础上增加了更多的训练样本。具体来说，complete-Kinetics使用了Kinetics数据集的全部训练样本，包括64个非重叠类别和49,325个视频，用于训练；12个非重叠类别和1,200个视频用于验证；24个非重叠类别和2,400个视频用于测试。这样的构建方式使得complete-Kinetics数据集在训练样本数量上更加充足，有利于深度模型的训练。

特点

complete-Kinetics数据集具有以下特点：1. 样本数量充足：相比现有的few-shot视频分类基准数据集，complete-Kinetics提供了更多的训练样本，有助于深度模型的学习。2. 类别丰富：complete-Kinetics数据集包含了64个非重叠的人类动作类别，涵盖了丰富的动作类型。3. 样本质量高：complete-Kinetics数据集中的视频样本质量较高，有利于模型的特征提取和分类。

使用方法

使用complete-Kinetics数据集进行few-shot视频分类任务时，可以采用以下方法：1. 使用complete-Kinetics数据集进行预训练：使用complete-Kinetics数据集中的全部训练样本对模型进行预训练，提取视频特征。2. 使用支持集进行微调：在测试阶段，使用支持集中的少量样本对预训练模型进行微调，以适应新的动作类别。3. 使用分类器进行分类：使用微调后的模型和分类器对查询样本进行分类，得到最终的分类结果。

背景与挑战

背景概述

在视频动作分类领域，深度学习方法取得了显著的成果。然而，这些方法通常需要大量的标注数据来训练深度模型，并且在泛化到未见过的类别时，仍然需要数百个标注样本重新训练模型以识别新类别。这限制了深度模型在开放世界环境中的高效部署。因此，少样本视频识别在现实场景中变得越来越流行，旨在使用有限的标注样本识别新类别。为了解决这个问题，Zhu等人提出了complete-Kinetics数据集，旨在提供一个包含更多基准数据的新基准，以促进未来无需预训练的少样本视频分类研究。

当前挑战

少样本视频分类面临的挑战包括：1) 学习有效的特征表示：少样本视频分类的主要挑战在于如何学习有效的特征表示，以便能够从有限的标注样本中泛化到未见过的类别。2) 预训练的合理性：现有的少样本视频分类方法通常使用在ImageNet上预训练的权重来初始化网络参数。然而，这种预训练可能违反少样本学习的假设，即新类别在元测试阶段之前不能被看到。3) 基准数据集的限制：现有的少样本视频分类基准数据集在训练样本的数量方面有限，无法为从零开始训练提供合理的训练集。

常用场景

经典使用场景

在视频分类领域，complete-Kinetics数据集作为一项重要资源，其经典使用场景在于为少样本视频分类任务提供基准数据集。研究者可以利用该数据集训练和评估少样本视频分类模型，推动少样本视频分类技术的发展。此外，该数据集还可以用于视频特征提取、视频表示学习等研究，为视频分类领域的其他任务提供基础。

衍生相关工作

complete-Kinetics数据集衍生了诸多相关研究工作。例如，研究者基于该数据集提出了新的少样本视频分类模型，如CMN、OTAM等，并取得了较好的性能。此外，该数据集还促进了视频特征提取、视频表示学习等相关技术的发展。未来，complete-Kinetics数据集有望在少样本视频分类领域发挥更大的作用，推动该领域的技术进步。

数据集最近研究