ViLCo-Bench
收藏ViLCo-Bench: VIdeo Language COntinual learning Benchmark
概述
ViLCo 是一个专门用于评估视频-文本连续学习模型的基准测试,包含数据集、代码和文档,旨在推动视频-语言连续学习领域的研究。
摘要
视频语言连续学习涉及不断适应来自视频和文本输入的信息,增强模型处理新任务同时保留先前知识的能力。该领域相对未被充分探索,建立适当的数据集对于促进该领域的交流和研究至关重要。本研究提出了第一个专门的基准测试 ViLCo-Bench,用于评估一系列视频-文本任务上的连续学习模型。数据集包含从公开可用数据集中收集的十分钟长视频和相应的语言查询。此外,我们引入了一种新的内存高效框架,结合自监督学习和模拟长期和短期记忆效应。该框架解决了长视频片段的内存复杂性、开放查询的自然语言复杂性以及文本-视频对齐问题。我们认为,与现有连续学习基准相比,ViLCo-Bench 具有更高的复杂性,将成为探索视频-语言领域的关键工具,超越传统的类增量任务,并解决复杂和有限的注释问题。
数据集内容
- 数据集: 包含从公开可用数据集中收集的十分钟长视频和相应的语言查询。
- 基准任务: 用于评估连续学习模型在各种视频-文本任务上的脚本和配置。
- 框架: 实现我们新的内存高效框架,结合自监督学习。
- 文档: 详细的文档,帮助您开始使用 ViLCo-Bench 基准测试。
开始使用
数据集
请从以下链接下载数据集:链接
先决条件
在开始之前,请确保满足以下要求:
- Python 3.8 或更高版本
- 所需的 Python 包(见
requirements.txt)
安装
克隆此仓库并安装必要的依赖项:
bash conda create --name vilco python=3.8 conda activate vilco
安装 pytorch 或使用您自己的 torch 版本
conda install pytorch==1.12.0 torchvision==0.13.0 torchaudio==0.12.0 cudatoolkit=11.6 -c pytorch -c conda-forge
git clone https://github.com/cruiseresearchgroup/ViLCo.git cd ViLCo pip install -r requirements.txt
贡献
我们欢迎对 ViLCo-Bench 基准测试的贡献!
许可证
ViLCo 使用 MIT 许可证。
致谢
此代码受到 vCLIMB 的启发。我们开发的基准模型受到 EgoVLP、EgoVLP-v2、Ego4D-ASL、Ground-NLQ、VQLoC 的启发。感谢他们的贡献。
引用
如果您在研究中使用 ViLCo-Bench,请引用我们的论文:
@article{Tang2024vilco, title={ViLCo-Bench: VIdeo Language COntinual learning Benchmark}, author={Tianqi Tang, Shohreh Deldari, Hao Xue, Celso De Melo, Flora Salim}, journal={Under review}, year={2024}, }

- 1ViLCo-Bench: VIdeo Language COntinual learning Benchmark新南威尔士大学计算机科学与工程学院 · 2024年



