VQA-MHUG
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/VQA-MHUG
下载链接
链接失效反馈官方服务:
资源简介:
我们提出了 VQA-MHUG - 一个新颖的 49 人数据集,包含使用高速眼动追踪器收集的视觉问答 (VQA) 期间的图像和问题的多模态人类注视。我们使用我们的数据集来分析由五个最先进的 VQA 模型学习的人类和神经注意力策略之间的相似性:具有网格或区域特征的调制共同注意力网络 (MCAN)、Pythia、双线性注意力网络 (BAN) ,以及多模态分解双线性池网络 (MFB)。虽然之前的工作集中在研究图像模态,但我们的分析首次表明,对于所有模型,与人类对文本的注意力的更高相关性是 VQA 性能的重要预测指标。这一发现指出了提高 VQA 性能的潜力,同时要求进一步研究神经文本注意机制及其与视觉和语言任务架构的集成,包括但可能超出 VQA。
提供机构:
OpenDataLab
创建时间:
2022-09-01



