eliolio/docvqa
收藏Hugging Face2022-10-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eliolio/docvqa
下载链接
链接失效反馈官方服务:
资源简介:
DocVQA数据集是一个用于文档图像视觉问答(VQA)的数据集,包含50,000个问题,这些问题基于12,767张图像。数据集按80−10−10的比例随机划分为训练集、验证集和测试集,其中训练集包含39,463个问题和10,194张图像,验证集包含5,349个问题和1,286张图像,测试集包含5,188个问题和1,287张图像。文档图像来源于UCSF Industry Documents Library,包含打印、打字和手写内容,涵盖了信件、备忘录、笔记、报告等多种文档类型。
The DocVQA dataset is a document image visual question answering (VQA) benchmark dataset, consisting of 50,000 questions grounded in 12,767 images. It is randomly partitioned into training, validation, and test sets at an 80−10−10 ratio. Specifically, the training set holds 39,463 questions and 10,194 images, the validation set contains 5,349 questions and 1,286 images, and the test set includes 5,188 questions and 1,287 images. The document images are sourced from the UCSF Industry Documents Library, covering printed, typed, and handwritten content, and spanning a variety of document types such as letters, memoranda, notes, reports, and more.
提供机构:
eliolio
原始信息汇总
DocVQA - A Dataset for VQA on Document Images
数据集概述
- 名称: DocVQA
- 任务类型: 文档图像问答(Document-Question-Answering)
- 数据来源: 文档图像来自UCSF Industry Documents Library,包含打印、打字和手写内容,涵盖信件、备忘录、笔记、报告等多种文档类型。
数据集结构
- 总问题数: 50,000
- 总图像数: 12,767
- 数据分割: 随机分为80-10-10的训练、验证和测试集。
- 训练集: 39,463个问题,10,194张图像
- 验证集: 5,349个问题,1,286张图像
- 测试集: 5,188个问题,1,287张图像
获取方式
- 数据集可从RRC挑战页面的“Downloads”标签下载。
引用信息
@InProceedings{mathew2021docvqa, author = {Mathew, Minesh and Karatzas, Dimosthenis and Jawahar, CV}, title = {Docvqa: A dataset for vqa on document images}, booktitle = {Proceedings of the IEEE/CVF winter conference on applications of computer vision}, year = {2021}, pages = {2200--2209}, }
搜集汇总
数据集介绍

构建方式
DocVQA数据集构建于12,767张文档图像之上,涵盖了50,000个问题。这些文档图像源自UCSF Industry Documents Library,包含了印刷、打字和手写等多种形式的文档内容。数据集的构建过程涉及对这些文档图像进行标注,生成与图像内容相关的问题和答案。数据集被随机划分为训练集、验证集和测试集,比例分别为80%、10%和10%,以确保模型训练和评估的全面性。
特点
DocVQA数据集的特点在于其多样性和复杂性。文档类型涵盖了信件、备忘录、笔记、报告等多种形式,内容形式包括印刷、打字和手写,极大地丰富了数据集的多样性。此外,数据集中的问题和答案设计旨在挑战模型对文档图像的理解能力,涵盖了从简单的事实提取到复杂的推理任务。这种多样性使得DocVQA成为评估文档视觉问答模型性能的理想选择。
使用方法
DocVQA数据集的使用方法主要包括下载数据集、划分数据子集以及训练和评估模型。用户可以从RRC门户的挑战页面下载数据集,并根据提供的划分比例进行训练、验证和测试。在模型训练过程中,用户可以利用训练集进行模型优化,使用验证集进行超参数调整,最终在测试集上评估模型性能。此外,用户还可以参考DocVQA论文中的方法,进一步探索和改进文档视觉问答模型的性能。
背景与挑战
背景概述
DocVQA数据集由Minesh Mathew等人于2021年提出,旨在解决文档图像上的视觉问答(VQA)问题。该数据集包含50,000个问题,基于12,767张文档图像,涵盖了多种文档类型,如信件、备忘录、笔记和报告等。这些图像来源于UCSF Industry Documents Library,包含了印刷、打字和手写内容。DocVQA的发布推动了文档理解领域的研究,特别是在结合视觉和文本信息进行问答任务方面,为相关算法提供了重要的基准测试平台。
当前挑战
DocVQA数据集面临的挑战主要包括两个方面。首先,文档图像中的内容多样性极高,涵盖了从印刷体到手写体的多种形式,这对模型的泛化能力提出了严峻考验。其次,文档中的布局复杂,信息密度高,模型需要同时理解文本内容和视觉布局,才能准确回答问题。此外,数据集的构建过程中,如何确保问题的多样性和复杂性,以及如何有效标注和验证答案的准确性,也是构建团队面临的主要挑战。这些挑战使得DocVQA成为文档理解领域的一个重要研究平台。
常用场景
经典使用场景
DocVQA数据集在文档图像视觉问答(VQA)领域具有重要应用,特别是在处理包含复杂布局和多样文本格式的文档时。该数据集通过提供大量标注的文档图像和对应的问题,支持模型训练和评估,使得研究者能够开发出能够理解和回答关于文档内容问题的智能系统。
实际应用
在实际应用中,DocVQA数据集被广泛用于开发自动化文档处理系统,如法律文档分析、医疗记录管理和企业文档检索。这些系统能够快速准确地从大量文档中提取关键信息,极大地提高了工作效率和准确性。
衍生相关工作
基于DocVQA数据集,研究者们开发了多种先进的文档图像问答模型,如基于Transformer的架构和多模态融合方法。这些工作不仅提升了文档图像问答的性能,还为其他视觉问答任务提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



