uitnlp/OpenViVQA-dataset

Name: uitnlp/OpenViVQA-dataset
Creator: uitnlp
Published: 2023-12-13 14:37:50
License: 暂无描述

Hugging Face2023-12-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/uitnlp/OpenViVQA-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

OpenViVQA数据集是一个开放领域的越南语视觉问答数据集，包含超过11,000张图像和37,000多个问题-答案对。该数据集在VLSP 2023 - ViVRC共享任务挑战中公开，旨在推动越南语等低资源语言的视觉问答研究。数据集包括训练、开发和测试图像及注释文件，可通过提供的链接访问。使用该数据集时需引用相关论文。

提供机构：

uitnlp

原始信息汇总

OpenViVQA 数据集概述

基本信息

许可证：MIT
任务类别：视觉问答（Visual Question Answering）
语言：越南语（Vietnamese）
数据规模：10K<n<100K

数据集描述

图像数量：11,000+
问题-答案对数量：37,000+
数据集用途：用于越南语的基于文本的开放式视觉问答任务
公开目的：供研究社区在VLSP 2023 - ViVRC共享任务挑战中使用

数据集链接

训练数据：
- 训练图像
- 训练标注
开发数据：
- 开发图像
- 开发标注
测试数据：
- 测试图像
- 测试标注（无答案）

引用信息

论文标题：OpenViVQA: Task, dataset, and multimodal fusion models for visual question answering in Vietnamese
期刊：Information Fusion
卷：100
页码：101868
年份：2023
作者：Nghia Hieu Nguyen, Duong T.D. Vo, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen
关键词：Visual question answering, Vision-language understanding, Low-resource languages, Information fusion, Multimodal representation
摘要：本文介绍了OpenViVQA数据集，这是第一个用于越南语开放式答案的视觉问答的大规模数据集，包含11,000+图像和37,000+问题-答案对。此外，本文还提出了FST、QuMLAG和MLPAG等融合图像和问题信息的方法，并使用这些融合特征来构建答案。

搜集汇总

数据集介绍

构建方式

在视觉问答领域，为弥补低资源语言数据集的不足，OpenViVQA数据集应运而生。该数据集构建过程严谨，通过收集超过11,000张图像，并配以37,000余个开放式问答对，形成大规模越南语视觉问答资源。数据标注遵循开放域原则，答案并非从预设选项中选择，而是由标注者根据图像内容自然生成，模拟人类真实问答场景。数据集划分明确，包含训练集、开发集和测试集，且测试集答案未公开，确保评估的客观性。

使用方法

研究者可利用OpenViVQA数据集开展越南语视觉问答模型训练与评估。数据集以标准格式提供，图像与标注文件分别打包，用户需下载训练集、开发集及测试集资源。模型开发阶段，可基于训练集进行多模态融合训练，利用开发集调整超参数。最终评估需通过Codalab平台提交测试集预测结果，以获取客观性能指标。该数据集适用于信息融合、表示学习等研究方向，尤其适合探索Transformer等先进架构在低资源语言上的应用。

背景与挑战

背景概述

在视觉与语言交叉的多模态研究领域，视觉问答任务因其在智能辅助系统与跨模态信息检索中的广泛应用而备受关注。2023年，由越南胡志明市信息科技大学NLP研究团队主导构建的OpenViVQA数据集应运而生，作为首个面向越南语的大规模开放式视觉问答数据集，其包含超过11,000张图像及37,000余组问答对。该数据集旨在推动低资源语言环境下的视觉语言理解研究，通过引入开放式答案生成任务，突破了传统答案选择模式的局限，为多模态信息融合算法提供了更为贴近人类认知的评估基准。

当前挑战

OpenViVQA数据集致力于解决越南语开放式视觉问答这一核心挑战，其难点在于模型需深度融合图像与文本特征，并生成自然语言形式的答案，而非仅从预设选项中进行分类。在构建过程中，研究者面临低资源语言标注数据稀缺的困境，需精心设计数据采集与标注流程，确保问答对在语义上的多样性与准确性。同时，跨文化语境下的图像理解与语言表达差异，也为数据集的代表性与泛化能力带来了考验。

常用场景

经典使用场景

在视觉语言理解领域，OpenViVQA数据集为越南语开放域视觉问答研究提供了关键资源。该数据集通过融合图像与文本信息，支持模型生成开放式答案，而非局限于选择或分类任务。经典使用场景包括训练多模态融合模型，如FST、QuMLAG和MLPAG，这些模型模仿人类迭代推理过程，结合图像特征与问题语义，生成自然语言回答。该数据集在VLSP 2023共享任务中作为基准，推动了越南语低资源语言环境下视觉问答技术的探索与优化。

解决学术问题

OpenViVQA数据集解决了视觉问答研究中开放域答案生成的学术挑战。传统数据集多将答案限制为选择或分类形式，削弱了问答任务的真实性与复杂性。该数据集通过提供越南语开放式答案，促进了多模态信息融合方法的发展，使模型能够更贴近人类认知过程，从图像和问题中综合推理并生成自由文本回答。其意义在于填补了低资源语言视觉问答数据的空白，为跨语言多模态研究提供了新视角，推动了信息融合与自然语言生成技术的进步。

实际应用

在实际应用层面，OpenViVQA数据集支持智能辅助系统的开发，例如为视障人士提供基于图像的自然语言交互工具，或用于智能汽车中的虚拟助手，通过视觉场景理解与问答增强人机协作。此外，该数据集可应用于文档图像信息检索，用户以自然语言查询提取视觉内容，提升信息获取效率。这些应用体现了多模态技术在现实世界中的价值，尤其在越南语等低资源语言环境中，促进了包容性人工智能解决方案的落地与推广。

数据集最近研究