Vid-Morp

github2024-12-04 更新2024-12-06 收录

下载链接：

https://github.com/baopj/Vid-Morp

下载链接

链接失效反馈

官方服务：

资源简介：

Vid-Morp是一个用于视频时刻检索预训练的大规模数据集，包含超过50K的野生视频和200K的伪训练样本。该数据集通过最小化人工干预收集，旨在显著减轻注释成本，并在各种下游设置中展示强大的泛化能力。

Vid-Morp is a large-scale dataset for pre-training on video moment retrieval tasks. It contains over 50K wild videos and 200K pseudo-training samples. Collected with minimal human intervention, this dataset aims to significantly reduce annotation costs and demonstrate strong generalization capabilities across various downstream settings.

创建时间：

2024-11-29

原始信息汇总

Vid-Morp: Video Moment Retrieval Pretraining from Unlabeled Videos in the Wild

概述

提出了一种新的预训练数据集和算法，用于视频时刻检索，有效降低了人工标注成本。
实验表明，ReCorrect模型在零样本和无监督设置下分别达到了SimBase性能的81.3%和86.7%。

数据集

数据集名为Vid-Morp，包含超过50K的野外视频和200K的伪训练样本。
数据集下载链接需通过邮件请求，邮箱地址为peijun001@e.ntu.edu.sg。
数据集仅限学术使用。

实验结果

全监督设置

方法	R@0.1	R@0.2	R@0.3	mIoU
SimBase	77.77	66.48	44.01	56.15
ReCorrect (Ours)	78.55	68.39	45.78	57.42

零样本设置

方法	R@0.1	R@0.2	R@0.3	mIoU
ReCorrect	66.54	51.15	28.54	45.63
% of SimBase	85.6%	76.9%	64.8%	81.3%

无监督设置

方法	R@0.1	R@0.2	R@0.3	mIoU
ReCorrect	70.96	54.42	31.10	48.66
% of SimBase	91.2%	81.9%	70.7%	86.7%

引用

@article{bao2024vidmorp, title={Vid-Morp: Video Moment Retrieval Pretraining from Unlabeled Videos in the Wild}, author={Bao, Peijun and Kong, Chenqi and Shao, Zihao and Ng, Boon Poh and Er, Menghwa, Kot, Alex C}, journal={ArXiv}, year={2024} }

搜集汇总

数据集介绍

构建方式

在视频时刻检索领域，传统的数据集构建依赖于大量的人工标注，这不仅成本高昂，而且效率低下。为了解决这一问题，我们提出了Vid-Morp数据集，该数据集通过最小化人工干预的方式，从自然环境中收集了超过50,000个视频和200,000个伪训练样本。这种构建方式不仅显著降低了标注成本，还确保了数据集的广泛适用性和高度的泛化能力。

特点

Vid-Morp数据集的一个显著特点是其大规模和多样性。该数据集包含了从自然环境中采集的视频，涵盖了多种场景和情境，从而为模型提供了丰富的训练数据。此外，数据集的构建过程中采用了ReCorrect算法，该算法在零样本和无监督设置下表现出色，进一步证明了数据集在减少对人工标注依赖方面的潜力。

使用方法

使用Vid-Morp数据集进行模型训练时，用户可以通过提供的预训练检查点快速启动。数据集中的CLIP特征存储在`data/charades/feat`目录下，而预训练模型检查点则位于`ckpt/charades`目录中。用户可以通过运行`python main.py --cfg ./experiment/charades/recorrect_eval_configs_on_ZeroShot+Unsup+Full.json --eval`命令，在零样本、无监督和完全监督设置下进行评估。

背景与挑战

背景概述

在视频时刻检索领域，传统的研究方法高度依赖于大量的人工标注数据，这不仅成本高昂，而且限制了模型的广泛应用。为了解决这一问题，Vid-Morp数据集应运而生，由Bao等人于2024年提出。该数据集通过最小化人工干预，收集了超过50,000个自然环境中的视频和200,000个伪训练样本，旨在为视频时刻检索预训练提供一个大规模、低成本的资源。Vid-Morp的提出不仅显著降低了标注成本，还展示了其在不同下游任务中的强大泛化能力，对视频时刻检索领域产生了深远影响。

当前挑战

尽管Vid-Morp数据集在降低标注成本方面取得了显著进展，但其构建过程中仍面临诸多挑战。首先，如何从海量未标注视频中高效提取有用的训练样本，是一个技术难题。其次，数据集的多样性和代表性问题，确保其能够覆盖广泛的应用场景，也是一大挑战。此外，尽管在零样本和无监督设置下表现优异，但与全监督方法相比，性能仍有差距，这表明在提升模型性能和减少对人工标注依赖之间仍需进一步平衡。

常用场景

经典使用场景

在视频时刻检索领域，Vid-Morp数据集的经典使用场景主要体现在其对大规模未标注视频的预训练能力。通过引入ReCorrect算法，该数据集能够在零样本和无监督设置下显著降低对人工标注的依赖，从而在视频时刻检索任务中展现出卓越的性能。这种预训练方法不仅减少了标注成本，还提高了模型在多样化下游任务中的泛化能力。

衍生相关工作

基于Vid-Morp数据集，许多相关工作得以展开，特别是在视频时刻检索和视频内容理解领域。例如，一些研究通过进一步优化ReCorrect算法，提升了模型在不同视频数据集上的性能。此外，该数据集还激发了在无监督学习和零样本学习方面的深入研究，推动了视频分析技术的整体进步。

数据集最近研究