GazeVQA

github2024-02-22 更新2024-05-31 收录

下载链接：

https://github.com/riken-grp/GazeVQA

下载链接

链接失效反馈

官方服务：

资源简介：

Dataset for the LREC-COLING 2024 paper "A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous Japanese Questions"

本数据集对应LREC-COLING 2024会议论文《面向澄清歧义日语问句的基于注视点的(Gaze-grounded)视觉问答(Visual Question Answering)数据集》

创建时间：

2024-02-22

原始信息汇总

数据集概述

数据集名称

Gaze-grounded Visual Question Answering Dataset (GazeVQA)

数据集介绍

GazeVQA 是由 Shun Inadumi, Seiya Kawano, Akishige Yuguchi, Yasutomo Kawanishi, Koichiro Yoshino 等人提出，旨在澄清日语中的模糊问题。该数据集在 LREC-COLING 2024 会议上发布。

数据集内容

GazeVQA 包含 17,276 个问题/答案对，这些数据来源于 Gazefollow 和 COCO 数据集。

数据集格式

QA格式： json [ { "image_id": COCO 图像识别码, "qa_id": QA 样本识别码, "question": 问题, "answer": 答案（测试集有十个答案）, "c_question": 澄清问题（仅测试集有） }, ... ]
QA属性格式： json { "qa_id":{ "gf_path": Gazefollow 图像和注视点识别码, "bboxes": COCO 注视目标边界框注释, [ [x1, y1, w, h], # obj1 [x1, y1, w, h], # obj2 ... ], "objects": COCO 注视目标对象标签注释 [obj1, obj2, ...] }, ... }

许可证

本数据集遵循 Creative Commons Attribution 4.0 License。

引用信息

bibtex @inproceedings{inadumi-etal-2024-gaze-grounded, title = "A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous {J}apanese Questions, author = "Shun Inadumi and Seiya Kawano and Akishige Yuguchi and Yasutomo Kawanishi and Koichiro Yoshino", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", pages = "558--571" year = "2024" }

搜集汇总

数据集介绍

构建方式

GazeVQA数据集的构建源于对视觉问答（VQA）领域中眼动数据的深入研究。该数据集最初以日语为基础，通过整合眼动追踪技术与视觉问答任务，旨在捕捉用户在回答图像相关问题时眼球运动的细微变化。数据采集过程中，参与者被要求观看一系列图像并回答相关问题，同时其眼动轨迹被精确记录，从而形成了一套独特的眼动-视觉问答数据集。

特点

GazeVQA数据集的核心特点在于其将眼动数据与视觉问答任务紧密结合，提供了丰富的多模态信息。数据集不仅包含传统的图像和问题对，还记录了用户在回答问题时的眼动轨迹，为研究视觉注意力机制与问答行为之间的关系提供了宝贵资源。此外，数据集的日语背景使其在跨语言视觉问答研究中具有独特价值，为探索语言与文化对视觉理解的影响提供了新的视角。

使用方法

使用GazeVQA数据集时，研究者可通过分析眼动数据与视觉问答结果之间的关联，深入探讨视觉注意力在问答任务中的作用。数据集适用于开发多模态模型，结合图像、文本和眼动信息，提升视觉问答系统的性能。同时，其日语背景为跨语言研究提供了实验平台，可用于比较不同语言环境下视觉理解与问答行为的差异。在使用过程中，建议结合眼动分析工具与视觉问答模型，以充分挖掘数据集的潜力。

背景与挑战

背景概述

GazeVQA数据集聚焦于视觉问答（Visual Question Answering, VQA）领域，旨在通过结合眼动追踪技术，深入理解人类在回答视觉问题时注意力分布与认知过程。该数据集的创建时间较早，主要由日本的研究机构Riken主导开发，其核心研究问题在于探索视觉注意力与问答任务之间的关联性。GazeVQA的推出为视觉问答领域提供了独特的数据支持，推动了基于眼动数据的多模态学习研究，尤其在跨文化、跨语言的视觉理解任务中展现了重要价值。

当前挑战

GazeVQA数据集在解决视觉问答问题时面临多重挑战。首先，眼动数据的采集与标注过程复杂，需要高精度的设备与严格的操作流程，以确保数据的可靠性与一致性。其次，视觉问答任务本身涉及多模态信息的融合，如何有效结合图像、文本与眼动数据成为技术难点。此外，数据集的构建还需考虑文化差异与语言多样性，这对模型的泛化能力提出了更高要求。这些挑战不仅体现在数据采集与处理阶段，也贯穿于后续的模型开发与评估过程。

常用场景

经典使用场景

GazeVQA数据集在视觉问答（VQA）领域中被广泛应用，特别是在研究人类视觉注意力与问题回答之间的关联时。通过结合眼动追踪数据，该数据集为研究者提供了一个独特的视角，用以分析在回答视觉问题时，人类的注意力如何分布和转移。

解决学术问题

GazeVQA数据集解决了视觉问答系统中一个关键问题，即如何模拟人类的视觉注意力机制。通过提供详细的眼动数据，该数据集帮助研究者更好地理解人类在回答视觉问题时的认知过程，从而改进现有的VQA模型，使其更加符合人类的视觉行为。

衍生相关工作

GazeVQA数据集衍生了一系列相关研究，特别是在视觉注意力机制和视觉问答系统的交叉领域。例如，基于该数据集的研究工作提出了多种新的模型架构，这些架构能够更好地模拟人类的视觉注意力分布，从而在VQA任务中取得了显著的性能提升。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集