prashanthpillai/docvqa_train_and_val

Name: prashanthpillai/docvqa_train_and_val
Creator: prashanthpillai
Published: 2023-04-13 17:29:28
License: 暂无描述

Hugging Face2023-04-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/prashanthpillai/docvqa_train_and_val

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: questionId dtype: int64 - name: question dtype: string - name: image sequence: sequence: sequence: uint8 - name: docId dtype: int64 - name: ucsf_document_id dtype: string - name: ucsf_document_page_no dtype: string - name: answers sequence: string - name: data_split dtype: string - name: words sequence: string - name: boxes sequence: sequence: int64 splits: - name: val num_bytes: 869361798 num_examples: 5349 - name: train num_bytes: 6381793673 num_examples: 39454 download_size: 2578887111 dataset_size: 7251155471 --- # Dataset Card for "docvqa_train_and_val" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

--- 数据集信息：特征字段： - 名称：questionId，数据类型：64位整数（int64） - 名称：question，数据类型：字符串 - 名称：image：由三层无符号8位整数（uint8）构成的嵌套序列 - 名称：docId，数据类型：64位整数（int64） - 名称：ucsf_document_id，数据类型：字符串 - 名称：ucsf_document_page_no，数据类型：字符串 - 名称：answers：字符串序列 - 名称：data_split，数据类型：字符串 - 名称：words：字符串序列 - 名称：boxes：由两层64位整数（int64）序列嵌套构成的序列数据划分子集： - 名称：验证集（val）：字节占用量：869361798，样本数量：5349 - 名称：训练集（train）：字节占用量：6381793673，样本数量：39454 下载大小：2578887111 总数据集大小：7251155471 --- # "docvqa_train_and_val"数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

prashanthpillai

原始信息汇总

数据集概述

数据集名称

名称: docvqa_train_and_val

数据集特征

问题ID (questionId): 整数类型 (int64)
问题内容 (question): 字符串类型 (string)
图像 (image): 序列类型，包含序列，序列内为无符号8位整数 (uint8)
文档ID (docId): 整数类型 (int64)
UCSF文档ID (ucsf_document_id): 字符串类型 (string)
UCSF文档页码 (ucsf_document_page_no): 字符串类型 (string)
答案 (answers): 序列类型，包含字符串
数据分割 (data_split): 字符串类型 (string)
单词 (words): 序列类型，包含字符串
边界框 (boxes): 序列类型，包含序列，序列内为整数类型 (int64)

数据集分割

验证集 (val):
- 样本数量: 5349
- 数据大小: 869361798 字节
训练集 (train):
- 样本数量: 39454
- 数据大小: 6381793673 字节

数据集大小

下载大小: 2578887111 字节
数据集总大小: 7251155471 字节

搜集汇总

数据集介绍

构建方式

在文档视觉问答领域，该数据集通过整合训练集与验证集，构建了一个结构化的视觉文本问答资源。其构建过程涉及从真实文档图像中提取视觉与文本信息，每张图像均标注了对应的问答对及文本边界框坐标。数据集的构建遵循了文档理解任务的标准流程，确保了图像与文本信息的精确对齐，为模型训练提供了高质量的标注数据。

特点

该数据集的核心特点在于其多模态融合特性，同时包含文档图像、文本内容及视觉问答标注。图像数据以序列化的像素数组形式存储，文本信息则通过单词序列和边界框坐标进行空间定位，支持对文档布局的细粒度分析。数据集的问答对覆盖了多样化的文档类型，增强了模型在真实场景下的泛化能力。

使用方法

使用该数据集时，研究者可将其应用于文档视觉问答模型的训练与评估。通过加载图像和对应的问答标注，模型能够学习从文档中提取视觉与文本特征以生成答案。数据集的分割设计便于进行交叉验证，用户可直接利用其训练集进行模型优化，并通过验证集评估性能，推动文档理解技术的进展。

背景与挑战

背景概述

文档视觉问答（DocVQA）数据集由prashanthpillai于近年整理发布，旨在推动文档理解与多模态人工智能的交叉研究。该数据集整合了训练与验证部分，共包含约4.5万条样本，涵盖丰富的手写与印刷文档图像，每张图像均标注了问题、答案及文本位置信息。其核心研究问题在于如何使机器能够像人类一样，通过视觉与语言交互，从非结构化文档中提取并推理关键信息。这一工作由研究社区协同构建，显著促进了文档智能、光学字符识别及自然语言处理领域的模型创新，为自动化文档分析提供了重要基准。

当前挑战

DocVQA数据集所解决的领域挑战在于文档视觉问答任务的复杂性，包括处理多样化的文档布局、模糊的手写文本、多语言内容以及需要深层语义推理的问题。构建过程中的挑战则涉及大规模文档图像的收集与标注，需确保答案的准确性与边界框的精确对齐，同时平衡不同文档类型与问题难度的分布，以维持数据集的代表性与评估的公正性。

常用场景

经典使用场景

在文档视觉问答领域，该数据集作为核心基准，广泛用于训练和评估模型从扫描文档图像中提取文本信息并回答自然语言问题的能力。其经典使用场景涉及对包含表格、图表或密集文字的文档进行理解，模型需结合视觉布局与文本内容，精准定位答案区域，从而模拟人类阅读复杂文档的认知过程。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作，包括LayoutLM、DocBERT等多模态预训练模型，这些模型通过融合视觉与文本特征显著提升了文档理解性能。此外，诸如TILT、DUE等端到端架构也基于此数据集进行了优化，推动了文档视觉问答任务在精度与鲁棒性上的持续进步，并为后续更大规模数据集的构建提供了方法论基础。

数据集最近研究