VQA-MHUG

Name: VQA-MHUG
Creator: 斯图加特大学交互与可视化系统研究所
Published: 2021-09-27 23:06:10
License: 暂无描述

arXiv2021-09-27 更新2024-06-21 收录

下载链接：

https://perceptualui.org/publications/sood21_conll/

下载链接

链接失效反馈

官方服务：

资源简介：

VQA-MHUG是由斯图加特大学交互与可视化系统研究所创建的一个包含49名参与者在视觉问答任务中对图像和问题进行注视的数据集。该数据集通过高速度眼动追踪技术收集，包含11,970个注视样本，覆盖3,990个问题-图像对，这些样本根据推理类型和难度进行了标记和平衡。VQA-MHUG旨在通过分析人类和神经注意策略的相似性，探索提高视觉问答性能的可能性，特别是在文本注意机制及其在视觉和语言任务架构中的集成方面。

VQA-MHUG is a dataset containing gaze recordings from 49 participants completing visual question answering (VQA) tasks on images and their corresponding questions, developed by the Institute of Interactive and Visual Systems at the University of Stuttgart. Collected via high-speed eye-tracking technology, this dataset includes 11,970 gaze samples covering 3,990 question-image pairs, which are labeled and balanced based on reasoning types and difficulty levels. VQA-MHUG aims to explore approaches to improving VQA performance by analyzing the similarities between human and neural attention strategies, with a particular emphasis on textual attention mechanisms and their integration into visual and language task architectures.

提供机构：

斯图加特大学交互与可视化系统研究所

创建时间：

2021-09-27

搜集汇总

数据集介绍

构建方式

在视觉问答这一跨模态研究领域，人类注意力的多模态数据长期匮乏。VQA-MHUG数据集的构建旨在填补这一空白，其核心方法是通过高速眼动仪采集49名参与者在回答VQAv2验证集中问题时的真实注视数据。研究团队精心筛选了3,990个问题-图像对，依据机器难度分数和12种推理类型进行平衡，确保覆盖广泛的挑战性场景。每个刺激均记录了三名不同参与者在图像和文本上的注视轨迹，最终生成了包含11,970个样本的多模态人类注视数据集。

特点

VQA-MHUG的显著特征在于其首创性地同步提供了人类在视觉问答任务中对图像和文本问题的真实注视数据。与以往仅关注图像模态或使用鼠标轨迹作为注意力代理的数据集不同，该数据集通过高精度眼动追踪技术，捕获了任务驱动下的多模态注意力分布。数据集经过严谨的验证，其注意力地图能有效保留回答所需的关键区域，同时过滤干扰信息。此外，该数据集与多个主流VQA基准数据集存在大量重叠，极大增强了其在跨模型比较与注意力机制研究中的实用价值。

使用方法

该数据集为研究多模态注意力机制提供了关键基准。研究者可利用VQA-MHUG中的人类注视数据，作为真实注意力分布的参照，用于评估和比较不同VQA模型的神经注意力策略。具体而言，可通过计算模型注意力图与人类注视数据之间的斯皮尔曼等级相关或詹森-香农散度，定量分析模型注意力与人类认知模式的相似性。此外，数据集支持基于每对样本的细粒度分析，例如使用有序逻辑回归探究文本或图像注意力相关性对模型答案准确率的预测能力，从而指导模型设计朝向更符合人类认知习惯的方向优化。

背景与挑战

背景概述

视觉问答领域长期致力于构建能够融合视觉与语言信息的智能系统，以模拟人类的多模态认知过程。在这一背景下，斯图加特大学与格罗宁根大学的研究团队于2021年推出了VQA-MHUG数据集，旨在填补多模态人类注意力数据在视觉问答任务中的空白。该数据集通过高速眼动仪记录了49名参与者在回答VQAv2验证集问题时对图像和文本的注视轨迹，涵盖了3,990个问题-图像对，并依据推理类型与难度进行了平衡标注。VQA-MHUG的创建不仅为理解人类与神经网络注意力机制之间的关联提供了实证基础，还首次揭示了文本注意力相关性对VQA模型性能的预测作用，从而推动了视觉与语言交叉领域的研究进展。

当前挑战

在视觉问答领域，核心挑战在于设计能够精准协调图像与文本信息的模型，以生成基于双模态推理的答案。VQA-MHUG数据集针对此问题，揭示了现有模型在文本注意力机制上的不足：尽管先进模型在图像注意力上已接近人类策略，但其文本注意力与人类注视模式的相关性普遍较低，这直接限制了模型性能的进一步提升。在数据构建过程中，研究团队面临了多模态注意力同步采集的技术难题：传统数据集多依赖鼠标轨迹作为注意力代理，但这种方法会高估特定图像区域并忽略上下文信息，且缺乏对文本模态的注视记录。此外，大规模眼动数据采集涉及高昂的设备成本与严格实验控制，还需确保数据在推理类型与难度上的平衡，以增强其代表性与实用性。

常用场景

经典使用场景

在视觉问答领域，VQA-MHUG数据集为研究多模态人类注意力机制提供了关键资源。该数据集通过高速眼动仪记录了49名参与者在回答视觉问题时对图像和文本的注视行为，涵盖了近4000个问题-图像对。其经典应用场景在于为视觉问答模型提供真实的人类注意力基准，使研究者能够系统分析神经网络在图像与文本模态上的注意力分布与人类认知策略的异同。这一场景不仅深化了对模型内部工作机制的理解，也为优化注意力机制提供了实证依据。

衍生相关工作

基于VQA-MHUG数据集，研究者们开展了一系列经典衍生工作。这些工作主要围绕改进视觉问答模型的注意力机制展开，例如开发融合人类文本注意力先验的神经网络架构，以提升模型对问题的理解能力。同时，该数据集也促进了多模态注意力对齐方法的研究，如提出新的损失函数来约束模型注意力分布与人类注视模式的一致性。此外，相关研究还扩展至更广泛的视觉语言任务，包括图像描述生成和视觉推理，推动了跨模态注意力建模技术的进步。

数据集最近研究