ViTextVQA
收藏arXiv2024-04-16 更新2024-07-31 收录
下载链接:
https://github.com/minhquan6203/ViTextVQA-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
一个针对越南语图像中文字理解能力的大型视觉问答数据集,包含超过16,000张图片和超过50,000个问题及答案。
A large-scale visual question answering (VQA) dataset targeting text understanding in Vietnamese images, containing over 16,000 images and more than 50,000 question-answer pairs.
创建时间:
2024-04-16
原始信息汇总
ViTextVQA 数据集
概述
ViTextVQA(越南语文本视觉问答)数据集是首个专注于理解图像中出现的文本的高质量大规模越南语数据集。该数据集包含超过16,000张图像和超过50,000个带有答案的问题,旨在评估AI模型理解图像中文本并基于此回答问题的能力。
目的
ViTextVQA的目的是为评估视觉问答(VQA)模型在越南语中的阅读理解能力提供基准。越南作为一个发展中国家,仍然需要资源和基准来推进AI和机器学习领域的研究。
关键特点
- 包含16,762张图像
- 包含50,342个带有答案的问题
- 专注于理解图像中的文本
- 精心设计,确保问题多样且具有挑战性
重要性
理解图像中的文本对于许多现实世界应用至关重要,例如协助视觉障碍人士、增强图像搜索引擎和提高AI对多媒体内容的理解。ViTextVQA通过提供一个针对越南语的大规模数据集,填补了一个关键的空白。
使用
研究人员和开发者可以使用ViTextVQA来训练和评估他们的VQA模型,分析不同方法的性能,并推动该领域的研究进展。该数据集可免费用于研究目的。
贡献
- 创建了首个高质量的大规模越南语基于文本的VQA任务数据集,重点关注场景文本和图像中出现的文本。
- 通过评估OCR系统的性能,分析了ViTextVQA数据集的挑战。
- 实验发现,使用ViT5作为骨干的VQA模型在OCR文本附加到问题时,表现出了答案选择器方法的效果。
- 实验显示,从左上到右下的排列方式显著提高了性能。
可用性
ViTextVQA数据集将在我们的文章被接受后提供下载。
评估
引用
如果您在研究中使用ViTextVQA数据集,请引用我们的论文(预印本):
作者
- Quan Van Nguyen
- Dan Quang Tran
- Huy Quang Pham
- Thang Kien-Bao Nguyen
- BS Nghia Hieu Nguyen
- MSc Kiet Van Nguyen
- Assoc. Prof Ngan Luu-Thuy Nguyen
所属机构
- 信息技术与工程学院,信息技术大学
- 越南国家大学,胡志明市,越南
联系方式
如有任何关于ViTextVQA数据集的咨询或反馈,请联系 21521333@gm.uit.edu.vn 或 haryquan.minh@gmail.com。



