ReceiptVQA

Name: ReceiptVQA
Creator: 越南信息科技大学，胡志明市，越南
Published: 2025-02-26 23:09:28
License: 暂无描述

arXiv2025-02-26 更新2025-02-28 收录

下载链接：

http://arxiv.org/abs/2502.19202v1

下载链接

链接失效反馈

官方服务：

资源简介：

ReceiptVQA是一个专注于越南语收据领域的大型文档VQA数据集。由越南信息科技大学的科研团队创建，包含9500多张收据图像和64812个问题答案对，这些问题答案对是针对收据图像上的文本内容提出的自然语言问题。数据集的构建经历了图像收集和问题答案注释两个阶段，旨在为视觉问答任务提供一个真实且具有挑战性的基准。该数据集的应用领域主要是文档理解和信息检索，旨在解决收据图像中有关文本信息的问题回答。

ReceiptVQA is a large-scale document Visual Question Answering (VQA) dataset focused on the Vietnamese receipt domain. It was developed by a research team from Vietnam University of Information Technology. The dataset includes over 9,500 receipt images and 64,812 question-answer pairs, which are natural language questions posed against the text content on the corresponding receipt images. The construction of this dataset consists of two stages: image collection and question-answer annotation. Its core goal is to provide a realistic and challenging benchmark for visual question answering tasks. The main application areas of this dataset are document understanding and information retrieval, aiming to address question answering related to text information in receipt images.

提供机构：

越南信息科技大学，胡志明市，越南

创建时间：

2025-02-26

搜集汇总

数据集介绍

构建方式

ReceiptVQA数据集的构建经历了两个主要阶段：图像收集和问答标注。图像收集阶段从多个来源收集了9,500张收据图像，包括咖啡店、杂货店、超市和个人。这些图像通过个人手机拍摄，并确保文本内容易于阅读。问答标注阶段由41名标注员参与，包括39名雇佣标注员和两名作者。标注员根据指南，为每张图像创建了至少六个独特的问答对，并确保问题由具体的文本跨度回答，以提高可靠性和适用性。最终，ReceiptVQA数据集包含了9,500张收据图像和64,812个问答对。

特点

ReceiptVQA数据集具有以下特点：1. 大规模：包含9,500张收据图像和64,812个问答对。2. 多模态：结合了文本、布局和视觉信息，以提供更全面的文档理解。3. 低资源语言：专注于越南语，为低资源语言的多模态学习社区提供了宝贵的资源。4. 实际场景：图像大多是通过手机拍摄的，与用户使用便携式设备分析文档的情境相符合。5. 问答类型多样化：涵盖了位置、对象、数量、时间、原因、方式、人员和其它等八类问题。

使用方法

ReceiptVQA数据集可用于训练和评估文档视觉问答系统，特别是针对越南语收据的问答系统。用户可以将数据集分为训练集、验证集和测试集，并使用各种评价指标（如F1分数、准确率和ANLS）来评估模型性能。此外，数据集还可以用于研究不同模态（文本、布局和视觉）对文档问答任务的影响，以及不同问答类型和答案类型对模型性能的影响。

背景与挑战

背景概述

ReceiptVQA数据集是首个针对越南语收据的文档视觉问答（document VQA）数据集，由越南信息技术大学信息科学与工程学院和越南国家大学的Thanh-Phong Le等人创建。该数据集包含超过9,000张收据图像和60,000多个手动标注的问答对，旨在促进越南语文档VQA领域的研究和发展。ReceiptVQA数据集的创建，填补了低资源语言文档VQA领域的空白，为越南语多模态学习社区提供了宝贵资源。该数据集的创建对于推动越南语文档VQA研究、促进多模态研究社区的多元化发展具有重要意义。

当前挑战

ReceiptVQA数据集的创建和研究中面临的主要挑战包括：1) 低资源语言的限制：越南语作为低资源语言，其VQA研究相对较少，导致可用的训练数据和预训练模型有限；2) 多模态信息处理的复杂性：文档图像具有高密度的文本和多样化的格式，需要同时处理视觉、文本和布局信息，这对模型的设计和训练提出了更高的要求；3) 问答对的多样性和复杂性：问答对的多样性和复杂性对模型的泛化能力提出了挑战，需要更精细化的模型设计和训练策略。此外，构建过程中还遇到了OCR识别错误、标注不一致等问题，需要通过技术手段和人工干预进行解决。

常用场景

经典使用场景

ReceiptVQA数据集是专门针对越南语收据的多模态学习社区设计的，包含9,000+收据图像和60,000+手动注释的问题-答案对。该数据集旨在解决文档视觉问答（Document VQA）挑战，即如何让多模态系统能够全面处理文本、布局和视觉模态，以提供适当的答案。ReceiptVQA数据集是首个大规模的越南语文档VQA数据集，专门用于收据，这是一种具有高商业潜力的文档类型。

实际应用

ReceiptVQA数据集的实际应用场景包括但不限于：1. 效率归档：个人或家庭可以有效地归档收据，便于检索和分析。2. 文档检索：通过提问的方式快速检索文档中的关键信息，提高工作效率。3. 文档分析：对收据中的信息进行统计分析，为企业决策提供数据支持。

衍生相关工作

ReceiptVQA数据集衍生了相关的研究工作，如Layout-infused Generative Transformer (LiGT)。LiGT是一种新颖的编码器-解码器Transformer架构，旨在将布局理解能力融入预训练的语言模型中，同时最小化使用额外的神经网络模块。LiGT架构在ReceiptVQA数据集上取得了有竞争力的性能，为越南语文档VQA研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集