five

GazeVQA

收藏
github2024-02-22 更新2024-05-31 收录
下载链接:
https://github.com/riken-grp/GazeVQA
下载链接
链接失效反馈
官方服务:
资源简介:
Dataset for the LREC-COLING 2024 paper "A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous Japanese Questions"

本数据集对应LREC-COLING 2024会议论文《面向澄清歧义日语问句的基于注视点的(Gaze-grounded)视觉问答(Visual Question Answering)数据集》
创建时间:
2024-02-22
原始信息汇总

数据集概述

数据集名称

Gaze-grounded Visual Question Answering Dataset (GazeVQA)

数据集介绍

GazeVQA 是由 Shun Inadumi, Seiya Kawano, Akishige Yuguchi, Yasutomo Kawanishi, Koichiro Yoshino 等人提出,旨在澄清日语中的模糊问题。该数据集在 LREC-COLING 2024 会议上发布。

数据集内容

GazeVQA 包含 17,276 个问题/答案对,这些数据来源于 Gazefollow 和 COCO 数据集。

数据集格式

  • QA格式: json [ { "image_id": COCO 图像识别码, "qa_id": QA 样本识别码, "question": 问题, "answer": 答案(测试集有十个答案), "c_question": 澄清问题(仅测试集有) }, ... ]

  • QA属性格式: json { "qa_id":{ "gf_path": Gazefollow 图像和注视点识别码, "bboxes": COCO 注视目标边界框注释, [ [x1, y1, w, h], # obj1 [x1, y1, w, h], # obj2 ... ], "objects": COCO 注视目标对象标签注释 [obj1, obj2, ...] }, ... }

许可证

本数据集遵循 Creative Commons Attribution 4.0 License

引用信息

bibtex @inproceedings{inadumi-etal-2024-gaze-grounded, title = "A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous {J}apanese Questions, author = "Shun Inadumi and Seiya Kawano and Akishige Yuguchi and Yasutomo Kawanishi and Koichiro Yoshino", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", pages = "558--571" year = "2024" }

搜集汇总
数据集介绍
main_image_url
构建方式
GazeVQA数据集的构建源于对视觉问答(VQA)领域中眼动数据的深入研究。该数据集最初以日语为基础,通过整合眼动追踪技术与视觉问答任务,旨在捕捉用户在回答图像相关问题时眼球运动的细微变化。数据采集过程中,参与者被要求观看一系列图像并回答相关问题,同时其眼动轨迹被精确记录,从而形成了一套独特的眼动-视觉问答数据集。
特点
GazeVQA数据集的核心特点在于其将眼动数据与视觉问答任务紧密结合,提供了丰富的多模态信息。数据集不仅包含传统的图像和问题对,还记录了用户在回答问题时的眼动轨迹,为研究视觉注意力机制与问答行为之间的关系提供了宝贵资源。此外,数据集的日语背景使其在跨语言视觉问答研究中具有独特价值,为探索语言与文化对视觉理解的影响提供了新的视角。
使用方法
使用GazeVQA数据集时,研究者可通过分析眼动数据与视觉问答结果之间的关联,深入探讨视觉注意力在问答任务中的作用。数据集适用于开发多模态模型,结合图像、文本和眼动信息,提升视觉问答系统的性能。同时,其日语背景为跨语言研究提供了实验平台,可用于比较不同语言环境下视觉理解与问答行为的差异。在使用过程中,建议结合眼动分析工具与视觉问答模型,以充分挖掘数据集的潜力。
背景与挑战
背景概述
GazeVQA数据集聚焦于视觉问答(Visual Question Answering, VQA)领域,旨在通过结合眼动追踪技术,深入理解人类在回答视觉问题时注意力分布与认知过程。该数据集的创建时间较早,主要由日本的研究机构Riken主导开发,其核心研究问题在于探索视觉注意力与问答任务之间的关联性。GazeVQA的推出为视觉问答领域提供了独特的数据支持,推动了基于眼动数据的多模态学习研究,尤其在跨文化、跨语言的视觉理解任务中展现了重要价值。
当前挑战
GazeVQA数据集在解决视觉问答问题时面临多重挑战。首先,眼动数据的采集与标注过程复杂,需要高精度的设备与严格的操作流程,以确保数据的可靠性与一致性。其次,视觉问答任务本身涉及多模态信息的融合,如何有效结合图像、文本与眼动数据成为技术难点。此外,数据集的构建还需考虑文化差异与语言多样性,这对模型的泛化能力提出了更高要求。这些挑战不仅体现在数据采集与处理阶段,也贯穿于后续的模型开发与评估过程。
常用场景
经典使用场景
GazeVQA数据集在视觉问答(VQA)领域中被广泛应用,特别是在研究人类视觉注意力与问题回答之间的关联时。通过结合眼动追踪数据,该数据集为研究者提供了一个独特的视角,用以分析在回答视觉问题时,人类的注意力如何分布和转移。
解决学术问题
GazeVQA数据集解决了视觉问答系统中一个关键问题,即如何模拟人类的视觉注意力机制。通过提供详细的眼动数据,该数据集帮助研究者更好地理解人类在回答视觉问题时的认知过程,从而改进现有的VQA模型,使其更加符合人类的视觉行为。
衍生相关工作
GazeVQA数据集衍生了一系列相关研究,特别是在视觉注意力机制和视觉问答系统的交叉领域。例如,基于该数据集的研究工作提出了多种新的模型架构,这些架构能够更好地模拟人类的视觉注意力分布,从而在VQA任务中取得了显著的性能提升。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作