OpenViVQA

github2023-12-05 更新2024-05-31 收录

下载链接：

https://github.com/hieunghia-pat/OpenViVQA-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

OpenViVQA数据集包含超过11,000张图像和37,000多个问题-答案对，引入了基于文本的越南语开放式视觉问答。该数据集对研究社区公开，可在VLSP 2023 - ViVRC共享任务挑战中访问，并通过Codalab评估系统提交结果以评估私有测试集。

The OpenViVQA dataset comprises over 11,000 images and more than 37,000 question-answer pairs, introducing text-based Vietnamese open-ended visual question answering. This dataset is publicly available to the research community and can be accessed during the VLSP 2023 - ViVRC shared task challenge. Results can be submitted via the Codalab evaluation system to assess performance on a private test set.

创建时间：

2023-02-24

原始信息汇总

数据集概述

名称: OpenViVQA

描述: OpenViVQA是一个包含超过11,000张图片和37,000+个问答对的数据集，专注于越南语的文本基础开放域视觉问答。

特点:

包含大量图像和问答对。
支持越南语的视觉问答任务。
适用于开放式答案的视觉问答研究。

用途: 该数据集旨在促进研究社区开发适用于越南语等低资源语言的更通用算法，包括变换器模型。

访问: 数据集可通过VLSP 2023 - ViVRC共享任务挑战公开访问，并可在Codalab评估系统上提交结果以评估私有测试集。

引用: 如使用此数据集，请引用相关论文：

@article{NGUYEN2023101868, title = {OpenViVQA: Task, dataset, and multimodal fusion models for visual question answering in Vietnamese}, journal = {Information Fusion}, volume = {100}, pages = {101868}, year = {2023}, issn = {1566-2535}, doi = {https://doi.org/10.1016/j.inffus.2023.101868}, url = {https://www.sciencedirect.com/science/article/pii/S1566253523001847}, author = {Nghia Hieu Nguyen and Duong T.D. Vo and Kiet {Van Nguyen} and Ngan Luu-Thuy Nguyen}, keywords = {Visual question answering, Vision-language understanding, Low-resource languages, Information fusion, Multimodal representation}, abstract = {In recent years, visual question answering (VQA) has attracted attention from the research community because of its highly potential applications (such as virtual assistance on intelligent cars, assistant devices for blind people, or information retrieval from document images using natural language as queries) and challenge. The VQA task requires methods that have the ability to fuse the information from questions and images to produce appropriate answers. Neural visual question answering models have achieved tremendous growth on large-scale datasets which are mostly for resource-rich languages such as English. However, available datasets narrow the VQA task as the answers selection task or answer classification task. We argue that this form of VQA is far from human ability and eliminates the challenge of the answering aspect in the VQA task by just selecting answers rather than generating them. In this paper, we introduce the OpenViVQA (Open-domain Vietnamese Visual Question Answering) dataset, the first large-scale dataset for VQA with open-ended answers in Vietnamese, consists of 11,000+ images associated with 37,000+ question–answer pairs (QAs). Moreover, we proposed FST, QuMLAG, and MLPAG which fuse information from images and questions, then use these fused features to construct answers as humans iteratively. Our proposed methods achieve results that are competitive with SOTA models such as SAAA, MCAN, LORA, and M4C. The dataset11https://github.com/hieunghia-pat/OpenViVQA-dataset. is available to encourage the research community to develop more generalized algorithms including transformers for low-resource languages such as Vietnamese.} }

搜集汇总

数据集介绍

构建方式

OpenViVQA数据集的构建基于越南语开放域视觉问答任务，涵盖了超过11,000张图像及37,000多个问答对。该数据集通过结合图像与自然语言问题，旨在模拟人类在视觉问答中的信息融合与答案生成过程。数据集的构建过程包括图像收集、问题生成及答案标注，特别注重低资源语言（如越南语）的多样性表达与信息融合。数据集的设计不仅支持答案选择任务，还强调开放域答案生成，以更贴近人类的问答能力。

特点

OpenViVQA数据集以其大规模、多样化的特点脱颖而出，涵盖了丰富的图像场景与问答对，特别针对越南语这一低资源语言。其独特之处在于支持开放域答案生成，而非仅限于答案选择或分类任务。数据集中的问答对设计旨在模拟人类的多模态信息处理能力，融合视觉与语言信息以生成自然语言答案。此外，该数据集为研究社区提供了评估平台，支持在私有测试集上进行模型性能验证，推动了低资源语言视觉问答领域的研究进展。

使用方法

OpenViVQA数据集的使用方法包括下载数据集、训练多模态融合模型以及提交结果至Codalab评估系统。研究人员可通过GitHub获取数据集，并利用其提供的图像与问答对进行模型训练与验证。数据集支持多种多模态融合方法，如FST、QuMLAG和MLPAG，这些方法通过融合图像与问题信息生成开放域答案。用户还可将模型结果提交至Codalab平台，在私有测试集上进行性能评估，从而推动越南语视觉问答领域的技术创新与算法优化。

背景与挑战

背景概述

OpenViVQA数据集是2023年由越南UIT大学的Nghia Hieu Nguyen等人创建的首个大规模越南语开放式视觉问答（VQA）数据集。该数据集包含超过11,000张图像和37,000多个问答对，旨在推动越南语这一低资源语言在视觉问答领域的研究。OpenViVQA的发布标志着越南语在视觉与语言理解领域的突破，尤其是在多模态信息融合和开放式答案生成方面。该数据集不仅为研究者提供了丰富的实验数据，还通过VLSP 2023 - ViVRC共享任务挑战赛促进了相关算法的开发与评估。其核心研究问题在于如何通过融合图像与文本信息生成开放式的自然语言答案，从而更接近人类的问答能力。

当前挑战

OpenViVQA数据集面临的挑战主要体现在两个方面。首先，在领域问题层面，视觉问答任务本身要求模型能够同时理解图像内容和自然语言问题，并生成准确且语义连贯的答案。对于越南语这种低资源语言，缺乏大规模标注数据使得模型训练更加困难。其次，在数据集构建过程中，如何确保问答对的多样性和质量是一大挑战。由于越南语的语法结构和表达方式与英语等资源丰富语言存在显著差异，设计符合语言特性的问答对需要大量语言学知识和人工标注。此外，开放式答案的生成任务相较于传统的答案选择任务更具挑战性，要求模型具备更强的语义理解和生成能力。

常用场景

经典使用场景

OpenViVQA数据集在视觉问答（VQA）领域中的经典使用场景主要集中在越南语的开放域视觉问答任务上。该数据集通过提供超过11,000张图像和37,000多个问答对，支持研究者开发和测试能够融合视觉和语言信息的模型。这些模型需要理解图像内容并结合自然语言问题生成开放式的答案，从而模拟人类的问答过程。

衍生相关工作

OpenViVQA数据集的发布催生了一系列相关研究工作，特别是在多模态信息融合和低资源语言处理领域。基于该数据集，研究者提出了FST、QuMLAG和MLPAG等模型，这些模型通过融合图像和问题信息生成答案，取得了与SOTA模型（如SAAA、MCAN、LORA和M4C）相竞争的结果。这些工作不仅推动了越南语VQA技术的发展，也为其他低资源语言的VQA研究提供了借鉴。

数据集最近研究