rubentito/mp-docvqa

Name: rubentito/mp-docvqa
Creator: rubentito
Published: 2023-02-27 16:09:10
License: 暂无描述

Hugging Face2023-02-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/rubentito/mp-docvqa

下载链接

链接失效反馈

官方服务：

资源简介：

--- pretty_name: MP-DocVQA (Multipage Document Visual Question Answering) license: mit task_categories: - question-answering - document-question-answering - document-visual-question-answering language: - en multilinguality: - monolingual source_datasets: - Single Page Document Visual Question Answering --- # Dataset Card for Multipage Document Visual Question Answering (MP-DocVQA) ## Dataset Description - **Homepage: [Robust Reading Competition Portal](https://rrc.cvc.uab.es/?ch=17&com=introduction)** - **Repository: [Robust Reading Competition Portal](https://rrc.cvc.uab.es/?ch=17&com=downloads)** - **Paper: [Hierarchical multimodal transformers for Multi-Page DocVQA](https://arxiv.org/abs/2212.05935.pdf])** - **Leaderboard: [Task 4 of DocVQA on the Robust Reading Competition Portal](https://rrc.cvc.uab.es/?ch=17&com=evaluation&task=4)** ### Dataset Summary The dataset is aimed to perform Visual Question Answering on multipage industry scanned documents. The questions and answers are reused from Single Page DocVQA (SP-DocVQA) dataset. The images also corresponds to the same in original dataset with previous and posterior pages with a limit of up to 20 pages per document. ### Download the Dataset The dataset is not integrated with Huggingface yet. But you can download it from the [DocVQA Challenge](https://rrc.cvc.uab.es/?ch=17) in the RRC Portal, [Downloads section](https://rrc.cvc.uab.es/?ch=17&com=downloads). ### Leaderboard You can also check the live leaderboard at the [RRC Portal](https://rrc.cvc.uab.es/?ch=17&com=evaluation&task=4) ## Dataset Structure ### Data Instances [More Information Needed] ### Data Fields [More Information Needed] ### Data Splits | | Train | Validation | Test | Total | |----------|:-----:|:-----------:|:------:|:-------:| |**Questions** |36230 | 5187 |5019 | 46436 | |**Documents** |5131 | 927 |959 | 5929 | |**Pages / Images** |37269 | 6510 |6223 | 47952 | Note that some documents might appear in both validation and test set. But they are never seen during training. ### Citation Information ```tex @article{tito2022hierarchical, title={Hierarchical multimodal transformers for Multi-Page DocVQA}, author={Tito, Rub{\`e}n and Karatzas, Dimosthenis and Valveny, Ernest}, journal={arXiv preprint arXiv:2212.05935}, year={2022} } ```

pretty_name: MP-DocVQA（多页文档视觉问答，Multipage Document Visual Question Answering） license: MIT许可证 task_categories: - 问答 - 文档问答 - 文档视觉问答 language: - 英语 multilinguality: - 单语言 source_datasets: - 单页文档视觉问答（Single Page Document Visual Question Answering） # 多页文档视觉问答（MP-DocVQA）数据集卡片 ## 数据集说明 - **主页：[稳健阅读竞赛门户](https://rrc.cvc.uab.es/?ch=17&com=introduction)** - **代码仓库：[稳健阅读竞赛门户](https://rrc.cvc.uab.es/?ch=17&com=downloads)** - **相关论文：[面向多页文档视觉问答的层级多模态Transformer](https://arxiv.org/abs/2212.05935.pdf])** - **排行榜：[稳健阅读竞赛门户任务4：DocVQA](https://rrc.cvc.uab.es/?ch=17&com=evaluation&task=4)** ### 数据集概述本数据集旨在针对多页工业扫描文档开展视觉问答任务。其问题与答案均复用自单页文档视觉问答（Single Page Document Visual Question Answering，SP-DocVQA）数据集，图像则保留原数据集的对应内容，并为每份文档补充前后相邻页，单文档页数上限为20页。 ### 数据集下载本数据集目前尚未集成至Huggingface平台，您可通过稳健阅读竞赛门户的[DocVQA挑战赛](https://rrc.cvc.uab.es/?ch=17)的[下载板块](https://rrc.cvc.uab.es/?ch=17&com=downloads)获取。 ### 排行榜您也可前往[稳健阅读竞赛门户](https://rrc.cvc.uab.es/?ch=17&com=evaluation&task=4)查看实时排行榜。 ## 数据集结构 ### 数据实例 [需补充更多信息] ### 数据字段 [需补充更多信息] ### 数据划分 | | 训练集 | 验证集 | 测试集 | 总计 | |----------|:-----:|:-----------:|:------:|:-------:| |**问题数** |36230 | 5187 |5019 | 46436 | |**文档数** |5131 | 927 |959 | 5929 | |**页面/图像数** |37269 | 6510 |6223 | 47952 | 请注意，部分文档可能同时出现在验证集与测试集中，但训练阶段从未见过此类文档。 ### 引用信息 tex @article{tito2022hierarchical, title={Hierarchical multimodal transformers for Multi-Page DocVQA}, author={Tito, Rubèn and Karatzas, Dimosthenis and Valveny, Ernest}, journal={arXiv preprint arXiv:2212.05935}, year={2022} }

提供机构：

rubentito

原始信息汇总

数据集卡片：多页文档视觉问答（MP-DocVQA）

数据集描述

数据集概述

该数据集旨在对多页行业扫描文档进行视觉问答（Visual Question Answering）。问题和答案来自单页文档视觉问答（SP-DocVQA）数据集。图像也对应于原始数据集中的相同内容，包括前后页，每份文档最多20页。

下载数据集

该数据集尚未集成到Huggingface中，但可以从DocVQA挑战的RRC门户网站的下载部分下载。

数据集结构

数据实例

[更多信息需要]

数据字段

[更多信息需要]

数据分割

	训练集	验证集	测试集	总计
问题	36230	5187	5019	46436
文档	5131	927	959	5929
页/图像	37269	6510	6223	47952

注意：某些文档可能同时出现在验证集和测试集中，但它们在训练期间从未被使用过。

引用信息

tex @article{tito2022hierarchical, title={Hierarchical multimodal transformers for Multi-Page DocVQA}, author={Tito, Rub{`e}n and Karatzas, Dimosthenis and Valveny, Ernest}, journal={arXiv preprint arXiv:2212.05935}, year={2022} }

搜集汇总

数据集介绍

构建方式

MP-DocVQA数据集的构建，旨在对多页工业扫描文档执行视觉问题回答任务。该数据集采用了Single Page DocVQA (SP-DocVQA)中的问题和答案，并对应地使用了原始数据集中的图像，每个文档的页数限制在20页以内，从而构建了一个涵盖多页文档的视觉问答数据集。

特点

该数据集的主要特点在于，它专注于多页文档的视觉问答，提供了36230个训练问题、5187个验证问题和5019个测试问题，以及对应的5929个文档和47952页图像。其数据分布考虑了文档在验证集和测试集中的重叠，但训练过程中不会出现。此外，数据集遵循MIT许可，支持单语言处理，即英文。

使用方法

使用MP-DocVQA数据集，用户可从Robust Reading Competition Portal下载相关数据。该数据集尚未与Huggingface平台集成，但用户可以通过指定的下载链接获取数据。此外，数据集的使用者可以参考相关的科学论文，了解数据集的详细构建和使用方法，并在RRC Portal上查看 leaderboard，以跟踪模型性能和比较不同方法的优劣。

背景与挑战

背景概述

MP-DocVQA（Multipage Document Visual Question Answering）数据集，旨在对多页工业扫描文档执行视觉问答任务。该数据集的创建，是对单页文档视觉问答数据集（SP-DocVQA）的扩展，由Rubén Tito、Dimosthenis Karatzas和Ernest Valveny等研究人员于2022年提出。其核心研究问题是如何在包含多达20页的文档中，有效地融合视觉信息与自然语言处理技术来回答问题。MP-DocVQA数据集以其独特的多页文档处理能力和在文档视觉问答领域的领先地位，对相关研究产生了显著影响。

当前挑战

该数据集在研究领域面临的挑战主要包括：如何在保持高准确率的同时，处理多页文档中的上下文信息；如何构建有效的模型以处理不同格式和复杂度的文档；以及在构建数据集时，如何确保问题与答案的准确性和一致性。此外，数据集构建过程中的挑战还包括处理多页文档的整合与分割，以及大规模多模态数据的标注和质量控制。

常用场景

经典使用场景

在文献解析与信息提取的研究领域，MP-DocVQA数据集被广泛用于多页文档的视觉问答任务。该数据集通过模拟真实场景中用户对多页文档内容提出问题的情景，研究人员可借此训练模型理解文档图像内容，并准确回答相关问题。

衍生相关工作

基于MP-DocVQA数据集的研究成果，已经衍生出了一系列相关工作，包括但不限于对多模态信息处理的改进、文档结构理解的增强以及跨领域问答能力的拓展，这些都进一步推动了文档智能处理技术的进步。

数据集最近研究