AGQA 2.0

Name: AGQA 2.0
Creator: 华盛顿大学
Published: 2022-04-13 06:30:12
License: 暂无描述

arXiv2022-04-13 更新2024-06-21 收录

下载链接：

https://tinyurl.com/agqavideo

下载链接

链接失效反馈

官方服务：

资源简介：

AGQA 2.0是一个用于评估视频时空组合推理能力的数据集，由华盛顿大学和斯坦福大学联合开发。该数据集包含9685万个问题答案对，主要通过自然语言模板和场景图注释生成关于视频的问题，旨在测试模型的组合推理能力。数据集创建过程中，采用了严格的平衡算法来减少语言偏差，确保问题答案分布的平衡性。AGQA 2.0主要应用于视频理解和视觉推理领域，特别是在评估模型对复杂视觉场景的理解能力方面具有重要价值。

AGQA 2.0 is a dataset designed to evaluate spatiotemporal compositional reasoning capabilities for videos, jointly developed by the University of Washington and Stanford University. Comprising 96.85 million question-answer pairs, it primarily generates questions about video content via natural language templates and scene graph annotations, with the goal of testing models' compositional reasoning abilities. During its construction, strict balancing algorithms are utilized to reduce language bias and ensure a balanced distribution of question-answer pairs. AGQA 2.0 is mainly applied in the domains of video understanding and visual reasoning, and it holds substantial value particularly for assessing models' capacity to understand complex visual scenes.

提供机构：

华盛顿大学

创建时间：

2022-04-13

搜集汇总

数据集介绍

构建方式

在视觉问答领域，为评估模型对视频中时空组合推理的能力，AGQA 2.0数据集通过系统化流程构建。其基于Action Genome数据集提供的场景图标注，利用自然语言模板自动生成问题，涵盖演员与对象在时间维度上的交互。构建过程中，采用严格的平衡算法，针对二元问题类别细化分类标准，例如引入时间定位短语以增强类别特异性，并通过程序化方法处理间接引用，从而有效减少语言偏差。最终，数据集包含9685万条问题-答案对，并提供一个经过平衡的227万条子集，支持对组合推理的精细评估。

特点

AGQA 2.0数据集在时空组合推理基准中展现出显著特点。其核心在于通过增强的平衡机制，大幅降低了语言偏差的影响，使得仅依赖语言信息的模型在二元问题上准确率不超过51%。数据集问题涵盖多种推理类型，如对象关系、时序排序和存在性判断，并细分为结构、语义和推理子类，便于深入分析模型性能。此外，数据集修正了模板中的歧义表述，优化了间接引用处理，并确保时间定位短语的标注帧有效性，提升了问题的清晰度与一致性。这些特性共同为视觉组合推理研究提供了更可靠的评估基础。

使用方法

AGQA 2.0数据集的使用旨在推动视觉组合推理模型的开发与评估。研究人员可将数据集应用于视觉问答任务，通过训练集和测试集的分割，评估模型在时空推理上的表现。使用中，建议关注平衡子集以减少偏差干扰，并利用数据集的分类结构进行细粒度分析，如比较模型在不同推理类型或语义类别上的准确性。此外，数据集支持泛化能力测试，包括对新颖组合和更多组合步骤的评估，帮助揭示模型依赖语言或视觉信息的程度。通过系统化使用，AGQA 2.0为提升模型的组合推理能力提供了坚实基准。

背景与挑战

背景概述

在计算机视觉领域，视频内容理解与时空推理能力是衡量模型智能水平的关键指标。AGQA 2.0数据集由华盛顿大学和斯坦福大学的研究团队于2022年提出，作为原始AGQA基准的升级版本，旨在评估模型在视频问答任务中的组合式时空推理能力。该数据集基于Action Genome场景图标注，通过自然语言模板生成约9685万个问题-答案对，并包含一个经过严格平衡处理的227万对子集。其核心研究问题聚焦于减少语言偏差对模型评估的影响，从而更准确地衡量视觉组合推理的真实性能，对推动视频理解与人工智能推理研究具有重要影响力。

当前挑战

AGQA 2.0致力于解决视频问答中组合式时空推理的评估挑战，特别是模型过度依赖语言线索而非视觉内容的问题。构建过程中的主要挑战包括：设计更严格的平衡算法以消除二元问题中的残余偏差，例如通过细化时间定位短语的类别定义；处理动作与对象关系表示之间的歧义性，确保问题生成的一致性；以及优化间接引用和超级问题模板，避免句法混淆和语义模糊。这些改进旨在提升数据集的可靠性与评估效度，为模型提供更为公正的测试平台。

常用场景

经典使用场景

在视频理解与视觉问答领域，AGQA 2.0数据集被广泛用于评估模型在组合时空推理任务中的性能。该数据集通过生成关于视频内容的自然语言问题，要求模型结合场景图中的时空信息进行多步骤推理，例如判断动作序列的先后顺序或识别物体间的交互关系。研究者利用这一基准测试，能够系统性地衡量模型在复杂视觉场景下的组合推理能力，从而推动视觉语言理解技术的发展。

衍生相关工作

AGQA 2.0的发布催生了一系列围绕组合时空推理的经典研究工作，例如基于层次条件关系网络（HCRN）和异构记忆增强（HME）的模型改进。这些工作进一步探索了模型在间接引用、新颖组合和复杂步骤问题上的泛化性能。同时，该数据集也启发了对视觉与语言偏差的深入分析，推动了如PSAC等注意力机制模型在视频问答任务中的优化与创新。

数据集最近研究