Open-vocabulary Video Question Answering (OVQA)

Name: Open-vocabulary Video Question Answering (OVQA)
Creator: 高丽大学计算机科学与工程系
Published: 2023-08-18 15:45:10
License: 暂无描述

arXiv2023-08-18 更新2024-06-21 收录

下载链接：

https://github.com/mlvlab/OVQA

下载链接

链接失效反馈

官方服务：

资源简介：

Open-vocabulary Video Question Answering (OVQA) 是一个评估视频问答模型泛化能力的新基准。该数据集旨在通过考虑罕见和未见过的答案来衡量模型的泛化能力。OVQA 数据集通过引入一个基于图神经网络（GNN）的软词义化器，增强了模型对罕见和未见过答案的预测能力，从而提高了模型的泛化性能。此数据集适用于评估模型在长尾分布，包括未见过答案的情况下的表现，旨在解决现有模型偏向频繁答案而无法泛化到罕见和未见过答案的问题。

Open-vocabulary Video Question Answering (OVQA) is a novel benchmark for evaluating the generalization capabilities of video question answering models. This dataset is designed to assess a model's generalization ability by evaluating against rare and unseen answers. The OVQA dataset incorporates a graph neural network (GNN)-based soft lexicalizer to enhance the model's predictive performance for rare and unseen answers, thereby boosting its generalization capacity. This dataset is tailored for evaluating model performance under long-tailed distributions, including cases where answers are unseen, and aims to resolve the prevalent issue that existing models are biased towards frequent answers and cannot generalize to rare and unseen ones.

提供机构：

高丽大学计算机科学与工程系

创建时间：

2023-08-18

搜集汇总

数据集介绍

构建方式

在视频问答领域，传统模型常将开放式任务转化为基于固定候选答案的分类问题，这导致模型对罕见和未见答案的泛化能力不足。OVQA基准的构建旨在突破这一局限，通过整合四个经典视频问答数据集（MSVD-QA、ActivityNet-QA、TGIF-QA和MSRVTT-QA），并依据答案在训练集中的出现频率将其划分为基础、常见、罕见及未见四类。该数据集特别强调对长尾分布中罕见与未见答案的覆盖，在测试集中大量纳入这些类别的样本，从而构建了一个能够全面评估模型在开放词汇设定下泛化能力的评测框架。

特点

OVQA数据集的突出特点在于其系统性的答案分类体系与开放词汇的评估设定。该数据集不仅包含常规的视频-问题-答案三元组，更创新性地依据答案频率将样本划分为基础、常见、罕见和未见四个类别，从而清晰揭示了数据的长尾分布特性。相较于传统封闭词汇设定，OVQA要求模型能够处理训练阶段未出现的答案，实现了对模型零样本与少样本泛化能力的直接测评。此外，该基准支持通过相似度计算而非固定分类器进行答案预测，为探索更接近真实场景的开放词汇视频问答提供了标准化的实验平台。

使用方法

使用OVQA数据集时，研究者需采用开放词汇的评估范式，即模型需通过计算视频-问题融合特征与答案嵌入表示之间的相似度来预测答案，而非依赖封闭的预定义答案集进行类别分类。基准提供了基于现有模型（如FrozenBiLM、JustAsk等）改造的基线方法，这些方法通过引入额外的答案编码器（如DeBERTa）来获取答案的语义嵌入。为进一步提升对罕见和未见答案的预测能力，论文提出的基于图神经网络的软性标签器可被集成至训练流程，该组件通过聚合外部知识库中相似词语的信息来平滑答案表示。评估时需分别报告总体准确率及各答案类别（基础、常见、罕见、未见）的准确率，并以平均准确率作为衡量模型泛化能力的关键指标。

背景与挑战

背景概述

视频问答作为多模态理解任务，旨在通过结合视觉与语言信息对动态视频内容进行推理并生成答案。传统开放端视频问答模型通常将任务简化为基于固定高频答案集的分类问题，导致模型对罕见及未见答案的泛化能力不足。为应对这一局限，韩国大学研究团队于2022年提出了开放词汇视频问答基准，通过引入包含长尾分布的答案类别，系统评估模型在开放词汇场景下的泛化性能。该数据集覆盖MSVD-QA、ActivityNet-QA等四个主流视频问答基准，通过构建包含基础、常见、罕见及未见答案的评估体系，推动了视频问答领域向更贴近现实场景的开放词汇理解方向发展。

当前挑战

开放词汇视频问答面临的核心挑战在于模型需克服对高频答案的固有偏见，实现对长尾分布中罕见及未见答案的准确预测。传统封闭词汇设定将答案空间限制于训练集中的高频词汇，导致模型无法处理训练阶段未出现的答案，严重制约了其实际应用价值。在数据集构建过程中，需解决答案类别极度不平衡、未见答案的语义表征学习以及多模态对齐的复杂性等问题。此外，如何有效利用外部知识库增强答案嵌入的语义信息，并通过图神经网络等技术平滑答案表征以提升泛化能力，亦是该领域亟待突破的技术难点。

常用场景

经典使用场景

在视频问答研究领域，OVQA数据集被广泛应用于评估模型在开放词汇设置下的泛化能力。该数据集通过构建包含罕见答案和未见答案的长尾分布，挑战传统模型仅依赖高频答案的局限性。研究者通常利用OVQA对现有视频问答模型进行改造，引入额外的答案编码器，将分类任务转化为基于相似度计算的开放词汇预测，从而系统检验模型对多样化答案的适应性和鲁棒性。

实际应用

在实际应用层面，OVQA数据集为智能视频分析系统提供了更贴近现实场景的评估基准。例如，在视频内容理解、自动化视频标注以及交互式教育平台中，系统需要处理用户提出的多样化问题，并生成超出预设词汇表的答案。基于OVQA训练的模型能够更好地理解视频中的细粒度动作、物体属性及复杂事件，为视频搜索引擎、无障碍视频访问以及智能监控等应用提供更精准的自然语言交互支持。

衍生相关工作

围绕OVQA数据集，学术界衍生出一系列关注开放词汇泛化的研究工作。例如，基于图神经网络的软标签生成器通过聚合外部知识库中的相似词汇信息，平滑答案嵌入以提升对未见答案的预测能力。同时，研究者将提示调优与掩码语言建模目标相结合，开发出参数高效的微调方法。这些工作进一步推动了视频问答模型从封闭词汇分类向开放词汇相似度计算的范式转变，并在多模态预训练模型中探索了跨模态对齐的新机制。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集