ViOCRVQA

Name: ViOCRVQA
Creator: 信息科学与工程学院，信息技术大学，胡志明市，越南；越南国家大学，胡志明市，越南
Published: 2024-04-29 11:17:47
License: 暂无描述

arXiv2024-04-29 更新2024-06-24 收录

下载链接：

https://github.com/qhnhynmm/ViOCRVQA-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ViOCRVQA数据集是针对越南语的视觉问答任务设计的大型数据集，包含超过28,000张图像和123,781对问题-答案。该数据集专注于图像中的文本信息，特别是书籍封面上的文本，如标题、作者、出版商等。数据集创建过程中采用了半自动问题-答案生成方法，以节省人工标注时间并丰富数据集多样性。ViOCRVQA数据集旨在通过探索最新的视觉问答方法，提高模型理解图像中文本信息的能力，并应用于解决与图像文本相关的视觉问答问题。

The ViOCRVQA dataset is a large-scale dataset designed for Vietnamese visual question answering (VQA) tasks. It contains over 28,000 images and 123,781 question-answer pairs. This dataset focuses on text information within images, particularly text on book covers such as titles, authors, publishers and other relevant content. A semi-automatic question-answer generation method was adopted during the dataset creation process to reduce manual annotation time and enrich the diversity of the dataset. The ViOCRVQA dataset aims to enhance models' capability of understanding text information in images by exploring state-of-the-art visual question answering methods, and to be applied to solving visual question answering problems related to image text.

提供机构：

信息科学与工程学院，信息技术大学，胡志明市，越南；越南国家大学，胡志明市，越南

创建时间：

2024-04-29

原始信息汇总

ViOCRVQA 数据集

概述

ViOCRVQA 是一个专注于图像中文字理解的越南语数据集，包含超过 28,000 张图像和 120,000 对问答。所有图像均包含文字，并且问题涉及图像中文字的相关信息。

目的

ViOCRVQA 旨在为评估越南语视觉问答（VQA）模型的阅读理解能力提供基准。越南作为一个发展中国家，仍需要资源和基准来推动人工智能和机器学习领域的研究。

关键特性

28,282 张图像
123,781 个带答案的问题
专注于理解图像中的文字
精心设计，确保问题多样且具有挑战性

重要性

理解图像中的文字对于许多现实应用至关重要，如辅助视觉障碍者、增强图像搜索引擎和提高人工智能对多媒体内容的理解。ViOCRVQA 填补了越南语相关数据集的重要空白。

使用

研究人员和开发者可以使用 ViOCRVQA 来训练和评估他们的 VQA 模型，分析不同方法的性能，并推动该领域的研究进展。该数据集可免费用于研究目的。

贡献

创建了越南语中最大的基于文字的 VQA 任务数据集，专注于图像中出现的文字。
通过评估 OCR 系统的性能，分析了 ViOCRVQA 数据集的挑战。
通过广泛测试，发现用于英语的 VQA 模型在越南语中效果不佳，推荐了我们提出的 VisionReader 模型。
我们的实验证明了在图像中建立物体和文字信息之间关系的有效性。

可用性

ViOCRVQA 数据集将在我们的文章被接受后提供下载。

引用

如果您在研究中使用了 ViOCRVQA 数据集，请引用我们的论文（预印本）： ViOCRVQA

作者

Huy Quang Pham
- 邮箱：21522163@gm.uit.edu.vn
Thang Kien-Bao Nguyen
- 邮箱：21521432@gm.uit.edu.vn
Quan Van Nguyen
- 邮箱：215622163@gm.uit.edu.vn
Dan Quang Tran
- 邮箱：21521917@gm.uit.edu.vn
BS Nghia Hieu Nguyen
- 邮箱：nghiangh@uit.edu.vn
MSc Kiet Van Nguyen
- 邮箱：kietnv@uit.edu.vn
Assoc. Prof Ngan Luu-Thuy Nguyen
- 邮箱：ngannlt@uit.edu.vn

所属机构

信息技术与工程学院，信息技术大学
越南国立大学，胡志明市，越南

联系

如有任何关于 ViOCRVQA 数据集的咨询或反馈，请联系 21522163@gm.uit.edu.vn。

搜集汇总

数据集介绍

构建方式

在越南语视觉问答研究领域，针对光学字符识别与视觉问答融合任务的资源稀缺问题，ViOCRVQA数据集通过半自动化流程构建而成。研究团队从越南在线书店系统性地爬取了包含越南语文本的书籍封面图像，并同步提取了元数据信息。经过数据清洗，去除标点符号及与封面无关的噪声信息后，聘请十位母语者针对作者、书名、出版社、译者及书籍类型五个类别，人工创作了超过300个多样化的问题模板。这些模板与书籍元数据自动结合，生成了123,781个高质量问答对，最终形成了包含28,282张图像的大规模数据集，并按照约70:15:15的比例划分为训练集、验证集和测试集。

特点

ViOCRVQA作为目前越南语OCR-VQA任务中规模最大的数据集，其核心特点体现在多维度。数据集中所有图像均聚焦于富含文本信息的书籍封面，确保了任务对文本理解能力的严格要求。问答对覆盖了书名、作者、出版社、译者及类型五个语义类别，其中书名类问题因字体多样、布局复杂而最具挑战性。该数据集在语言学层面展现出丰富性，问题与答案的平均长度分别为9.64和7.52个词，且超过90%的答案以短语形式呈现，符合自然语言应答习惯。与英文同类数据集相比，ViOCRVQA在问题与答案的长度分布上更具多样性，深度融入了越南语的语言文化细微差别。

使用方法

该数据集专为训练与评估能够理解图像中越南语文本的视觉问答模型而设计。研究者可利用其进行端到端的OCR-VQA任务开发，模型需同时处理视觉特征与OCR识别出的文本信息以生成答案。数据集的标准评估指标采用精确匹配率和F1分数，确保了答案的准确性要求。在使用时，可基于其提供的训练集开发模型，并在验证集上进行调优，最终在测试集上报告性能。研究已表明，结合对象检测特征与OCR特征的多模态融合方法能显著提升模型表现，这为后续研究提供了明确的技术路径。数据集公开可用，旨在推动越南语低资源场景下的多模态理解研究。

背景与挑战

背景概述

在视觉问答领域，光学字符识别与视觉问答的融合任务近年来在英语语境中取得了显著进展，然而针对越南语等低资源语言的研究仍相对匮乏。为填补这一空白，越南信息科技大学的研究团队于2024年推出了ViOCRVQA数据集，该数据集聚焦于图像中越南语文本的理解与问答。ViOCRVQA包含超过2.8万张书籍封面图像及12.3万余组问答对，核心研究问题在于提升模型对图像内越南语文本信息的提取与推理能力。作为目前越南语视觉问答领域规模最大的数据集，它不仅推动了低资源语言多模态研究的发展，也为跨语言OCR-VQA任务提供了重要的基准资源。

当前挑战

ViOCRVQA数据集旨在解决越南语场景文本视觉问答任务，其核心挑战在于模型需精准识别图像中复杂排版的越南语文字，并依据文本内容回答开放式问题。构建过程中的挑战主要体现在数据采集与处理环节：首先，书籍封面文本常采用艺术字体或非标准布局，增加了光学字符识别系统的识别难度；其次，越南语丰富的语言变体及文化特有表达方式，要求问答对需涵盖多样化的语言结构；此外，数据标注需平衡自动化生成与人工校验，以确保问答对的准确性与语言自然度。这些挑战共同构成了该数据集在技术与语言学层面的双重复杂性。

常用场景

经典使用场景

在视觉问答领域，ViOCRVQA数据集作为首个专注于越南语文本理解的OCR-VQA基准，其经典应用场景在于评估和提升模型从图像中提取并理解越南语文本信息的能力。该数据集以书籍封面图像为核心，涵盖了作者、标题、出版商、译者及类型等多类问题，为研究者提供了一个标准化的测试平台，用以探索多模态模型在低资源语言环境下的性能极限。

衍生相关工作

ViOCRVQA数据集的发布催生了一系列衍生研究，其中最具代表性的是论文中提出的VisionReader模型，该模型融合对象特征与OCR文本，显著提升了越南语OCR-VQA任务的性能。此外，研究团队基于该数据集对LoRRA、LaTr、PreSTU及BLIP-2等国际前沿方法进行了适应性改造与评估，推动了跨语言模型迁移、低资源多模态学习等方向的探索，为后续越南语视觉语言模型的优化与创新提供了关键参考。

数据集最近研究