ViTextVQA

arXiv2024-04-16 更新2024-07-31 收录

下载链接：

https://github.com/minhquan6203/ViTextVQA-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个针对越南语图像中文字理解能力的大型视觉问答数据集，包含超过16,000张图片和超过50,000个问题及答案。

A large-scale visual question answering (VQA) dataset targeting text understanding in Vietnamese images, containing over 16,000 images and more than 50,000 question-answer pairs.

创建时间：

2024-04-16

原始信息汇总

ViTextVQA 数据集

概述

ViTextVQA（越南语文本视觉问答）数据集是首个专注于理解图像中出现的文本的高质量大规模越南语数据集。该数据集包含超过16,000张图像和超过50,000个带有答案的问题，旨在评估AI模型理解图像中文本并基于此回答问题的能力。

目的

ViTextVQA的目的是为评估视觉问答（VQA）模型在越南语中的阅读理解能力提供基准。越南作为一个发展中国家，仍然需要资源和基准来推进AI和机器学习领域的研究。

关键特点

包含16,762张图像
包含50,342个带有答案的问题
专注于理解图像中的文本
精心设计，确保问题多样且具有挑战性

重要性

理解图像中的文本对于许多现实世界应用至关重要，例如协助视觉障碍人士、增强图像搜索引擎和提高AI对多媒体内容的理解。ViTextVQA通过提供一个针对越南语的大规模数据集，填补了一个关键的空白。

使用

研究人员和开发者可以使用ViTextVQA来训练和评估他们的VQA模型，分析不同方法的性能，并推动该领域的研究进展。该数据集可免费用于研究目的。

贡献

创建了首个高质量的大规模越南语基于文本的VQA任务数据集，重点关注场景文本和图像中出现的文本。
通过评估OCR系统的性能，分析了ViTextVQA数据集的挑战。
实验发现，使用ViT5作为骨干的VQA模型在OCR文本附加到问题时，表现出了答案选择器方法的效果。
实验显示，从左上到右下的排列方式显著提高了性能。

可用性

ViTextVQA数据集将在我们的文章被接受后提供下载。

评估

使用EM和F1进行评估。
应合并dev和test文件并在Kaggle上提交，以获得最准确的评估结果。

引用

如果您在研究中使用ViTextVQA数据集，请引用我们的论文（预印本）：

ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images

作者

Quan Van Nguyen
Dan Quang Tran
Huy Quang Pham
Thang Kien-Bao Nguyen
BS Nghia Hieu Nguyen
MSc Kiet Van Nguyen
Assoc. Prof Ngan Luu-Thuy Nguyen

所属机构

信息技术与工程学院，信息技术大学
越南国家大学，胡志明市，越南

联系方式

如有任何关于ViTextVQA数据集的咨询或反馈，请联系 21521333@gm.uit.edu.vn 或 haryquan.minh@gmail.com。

5,000+

优质数据集

54 个

任务类型

进入经典数据集