VideoEval

arXiv2024-07-09 更新2024-07-12 收录

下载链接：

https://github.com/MCG-NJU/VideoEval

下载链接

链接失效反馈

官方服务：

资源简介：

VideoEval数据集由南京大学和上海人工智能实验室创建，旨在评估视频基础模型的性能。该数据集包含5704条数据，涵盖了从动作识别到视频质量评估等多个视频理解任务。数据集的创建过程包括从公共数据源收集数据、筛选高质量视频和标注，以及构建分类任务。VideoEval数据集主要用于评估模型在不同视频理解任务中的适应性和泛化能力，特别是在少样本条件下的表现。

The VideoEval dataset, developed by Nanjing University and Shanghai AI Laboratory, is designed to evaluate the performance of video foundation models. This dataset consists of 5,704 samples, covering a wide range of video understanding tasks ranging from action recognition to video quality assessment. The construction of the VideoEval dataset involves data collection from public data sources, screening of high-quality videos and annotation, as well as the development of classification tasks. The VideoEval dataset is primarily utilized to assess a model's adaptability and generalization capability across diverse video understanding tasks, particularly its performance under few-shot conditions.

提供机构：

南京大学上海人工智能实验室

创建时间：

2024-07-09

原始信息汇总

VideoEval 数据集概述

数据集介绍

VideoEval 是一个全面的视频基础模型低成本评估基准套件。该数据集包括 VidTAB 和 VidEB 两个部分。

更新记录

2024/06/12: 发布了 VideoEval 的标注和评估代码。

安装与配置

VidTAB

基于 MMAction2 进行训练和评估： cmd pip install -U openmim mim install mmengine mmcv>=2.0.0rc1 mim install "mmdet>=3.0.0rc5" mim install "mmpose>=1.0.0rc0" git clone https://github.com/leexinhao/VideoEval.git cd VidTAB pip install -v -e .

基准测试

数据准备

由于潜在的版权问题，请参考 DATA.md 下载每个数据集的原始视频。VidTAB 可以直接使用我们准备的标注文件。

视频任务适应性基准 (VidTAB)

少样本评估

训练和评估可以参考 MMAction2 文档，并提供了不同视频基础模型 (VFMs) 的配置文件。

训练命令： bash python tools/train.py ${CONFIG_FILE} [ARGS]

提供了训练脚本 tools/my_train.sh 以简化参数设置： bash bash tools/my_train.sh configs/video_eval/AR_in_Dark/Internvideo2/frozen_tuning/InternVideo2-1B-stage1-pt_16_shot_bs16.py

零样本评估

零样本评估的提示词可以参考图像骨干提示词和视频骨干提示词。

评估命令： bash bash exp/vid_zs.sh # 视频语言模型 bash exp/img_zs.sh # 图像语言模型

视频嵌入基准 (VidEB)

提供了评估的示例，展示了嵌入提取和评估的流程。

引用

如果该数据集对你的研究有帮助，请考虑引用： BibTeX @article{li2024videoeval, title={VideoEval: Comprehensive Benchmark Suite for Low-Cost Evaluation of Video Foundation Model}, author={Li, Xinhao and Huang, Zhenpeng and Wang, Jing and Li, Kunchang and Wang, Limin}, journal={arXiv preprint arXiv:2407.06491}, year={2024} }

搜集汇总

数据集介绍

构建方式

VideoEval数据集构建了两个关键部分：视频任务适应基准（VidTAB）和视频嵌入基准（VidEB）。VidTAB旨在评估视频基础模型（VFMs）在少量样本条件下对新任务的适应能力，它收集了来自不同视频任务领域的公共数据集，并构建了八个适应任务。VidEB则旨在评估VFMs作为直接特征嵌入提取器的能力，它包括四个任务，用于评估不同粒度下的嵌入能力。

特点

VideoEval数据集具有以下几个特点：1）全面性：VidTAB涵盖了从特殊场景动作识别、AI科学应用、视频内容审核、视频质量评估到情感分析等多个视频任务领域；2）挑战性和指示性：VidTAB和VidEB通过多样化的测试数据和更具挑战性的评估协议，能够有效地区分表现相似的VFMs；3）低成本：VidEval采用了轻量级的少样本评估和无需训练的特征嵌入评估协议，显著降低了评估成本；4）视觉中心：VidEval专注于评估VFMs本身的视觉表示能力，避免了引入大型语言模型（LLMs）可能带来的偏差。

使用方法

使用VideoEval数据集时，首先需要了解数据集的结构和评估协议。VidTAB使用少量样本进行评估，包括4-shot、16-shot和100-shot三种情况，并使用注意力探针（Attentive Probe）进行模型适应。VidEB则包括视频检索和视频复制检测两个任务，分别使用平均平均精度（mAP）和微平均精度（µAP）作为评估指标。在评估VFMs时，可以将模型在这些任务上的表现与其他VFMs进行比较，以了解其在不同任务和评估协议下的适应能力和特征嵌入能力。

背景与挑战

背景概述

随着高质量数据和视觉预训练范式的进步，视频基础模型（VFMs）在最近取得了显著进展，并在传统的视频理解基准上表现出卓越的性能。然而，现有的基准（例如Kinetics）及其评估协议往往受到相对较差的多样性、高昂的评估成本和饱和的性能指标的局限。为了解决这些问题，我们构建了一个名为VideoEval的综合基准套件，旨在从两个角度评估VFMs的任务适应性和表示能力：评估VFMs在少量样本条件下的任务适应性和通过直接应用于下游任务来评估它们的表示能力。通过VideoEval，我们对20个流行的开源视觉基础模型进行了大规模研究。我们的研究发现了一些关于VFMs的深刻见解：1）总体而言，当前的VFMs在不同任务之间表现出弱的泛化能力；2）增加视频数据（无论是标记的还是弱标记的视频-文本对）并不一定能够提高任务性能；3）某些预训练范式在以前的标准中可能没有得到充分的验证；4）结合不同的预训练范式可以帮助提高泛化能力。我们相信这项研究是对当前VFMs评估的重要补充，并为未来的研究提供了宝贵的见解。

当前挑战

VideoEval数据集面临的挑战包括：1）现有基准（例如Kinetics）及其评估协议往往受到相对较差的多样性、高昂的评估成本和饱和的性能指标的局限；2）VFMs在少量样本条件下适应未见过的视频任务的能力较弱；3）增加视频数据（无论是标记的还是弱标记的视频-文本对）并不一定能够提高任务性能；4）某些预训练范式在以前的标准中可能没有得到充分的验证。

常用场景

经典使用场景

VideoEval数据集主要用于评估视频基础模型（VFMs）的性能和泛化能力。该数据集包含两个主要部分：视频任务适应基准（VidTAB）和视频嵌入基准（VidEB）。VidTAB用于评估VFMs在少量样本条件下对未见过的任务的适应能力，而VidEB则通过直接应用于下游任务来评估VFMs的表示能力。VideoEval的数据集和评估协议旨在解决现有基准的局限性，如多样性差、评估成本高和性能指标饱和等问题。

衍生相关工作

VideoEval数据集衍生了一些相关的经典工作。例如，InternVideo2数据集在VideoEval的基础上进行了扩展，结合了预训练范式和大规模高质量数据，将VFMs的参数规模扩大到60亿，取得了显著的性能提升。此外，VideoEval的评估方法也被用于其他视频基础模型的研究和评估，如VideMAE、V-JEPA等。这些工作进一步推动了视频基础模型的研究和发展，为视频理解和处理提供了更强大的工具和方法。

数据集最近研究