ReplugLens/DocVQA

Name: ReplugLens/DocVQA
Creator: ReplugLens
Published: 2024-06-07 06:55:29
License: 暂无描述

Hugging Face2024-06-07 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/ReplugLens/DocVQA

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: questionId dtype: string - name: question dtype: string - name: question_types sequence: string - name: image dtype: image - name: docId dtype: int64 - name: ucsf_document_id dtype: string - name: ucsf_document_page_no dtype: string - name: answers sequence: string - name: data_split dtype: string splits: - name: validation num_bytes: 3578892078.125 num_examples: 5349 - name: test num_bytes: 3659290808.644 num_examples: 5188 download_size: 2167757059 dataset_size: 7238182886.769 configs: - config_name: default data_files: - split: validation path: data/validation-* - split: test path: data/test-* ---

数据集详情（dataset_info）：特征字段： - 问题ID（questionId）：字符串类型 - 问题文本（question）：字符串类型 - 问题类型集合（question_types）：字符串序列类型 - 图像（image）：图像数据类型 - 文档ID（docId）：64位整数类型 - UCSF文档ID（ucsf_document_id）：字符串类型 - UCSF文档页码（ucsf_document_page_no）：字符串类型 - 答案集合（answers）：字符串序列类型 - 数据划分标识（data_split）：字符串类型数据集划分： - 划分名称：验证集（validation），字节占用量：3578892078.125，样本数量：5349 - 划分名称：测试集（test），字节占用量：3659290808.644，样本数量：5188 下载总大小：2167757059 数据集总大小：7238182886.769 配置方案： - 配置名：默认配置（default），数据文件配置： - 验证集划分对应数据路径：data/validation-* - 测试集划分对应数据路径：data/test-*

提供机构：

ReplugLens

原始信息汇总

数据集概述

数据集特征

questionId: 数据类型为字符串
question: 数据类型为字符串
question_types: 数据类型为字符串序列
image: 数据类型为图像
docId: 数据类型为整数64位
ucsf_document_id: 数据类型为字符串
ucsf_document_page_no: 数据类型为字符串
answers: 数据类型为字符串序列
data_split: 数据类型为字符串

数据集分割

验证集 (validation):
- 示例数量: 5349
- 数据量: 3578892078.125字节
测试集 (test):
- 示例数量: 5188
- 数据量: 3659290808.644字节

数据集大小

下载大小: 2167757059字节
数据集总大小: 7238182886.769字节

数据文件配置

默认配置 (default):
- 验证集路径: data/validation-*
- 测试集路径: data/test-*

搜集汇总

数据集介绍

构建方式

在文档视觉问答领域，ReplugLens/DocVQA数据集通过系统化采集真实文档图像构建而成。该数据集整合了多样化文档样本，每份样本均包含高分辨率扫描图像，并针对图像内容精心设计了自然语言问题。标注过程中，专家对问题类型进行细致分类，同时提供多参考答案，确保数据覆盖广泛问答场景。数据划分遵循严谨标准，分为验证集与测试集，以支持模型评估与泛化能力验证。

特点

本数据集核心特点在于其多模态结构，融合视觉图像与文本问答信息。每个样本不仅包含文档图像，还关联了唯一标识符、文档元数据及问题类型标签，支持细粒度分析。数据涵盖丰富文档类型与版面，问题设计兼顾事实性查询与推理任务，答案以序列形式呈现，增强了评估的灵活性。验证集与测试集规模均衡，为模型性能提供了可靠基准。

使用方法

使用该数据集时，研究者可加载图像与对应问题，进行端到端文档视觉问答模型训练或评估。数据集支持直接读取图像字段与文本字段，便于多模态模型输入处理。通过问题类型标签，用户可针对特定任务进行子集筛选或分析。验证集与测试集已预先划分，适用于模型调优与最终性能测试，输出答案可与提供的参考答案序列进行比对，以计算准确率等指标。

背景与挑战

背景概述

文档视觉问答（DocVQA）作为多模态人工智能领域的关键分支，旨在推动机器对文档图像内容的理解与交互能力。该数据集由ReplugLens团队构建，聚焦于从扫描文档中提取文本信息并回答自然语言问题，其核心研究问题在于弥合视觉文档分析与语义理解之间的鸿沟。自问世以来，DocVQA不仅为文档智能研究提供了标准化评估基准，还显著促进了光学字符识别、布局分析与问答系统的融合发展，对金融、法律及医疗等行业的自动化文档处理产生了深远影响。

当前挑战

DocVQA数据集所应对的领域挑战主要在于文档结构的复杂性与问答任务的多样性，例如处理表格、图表及手写文本等多模态元素的联合理解，以及应对开放域问答中的语义推理需求。在构建过程中，研究人员需克服大规模文档图像的高质量标注难题，包括确保答案的精确性与上下文一致性，同时平衡数据集中文档类型与语言风格的多样性，以保障模型训练的泛化能力与鲁棒性。

常用场景

经典使用场景

在文档视觉问答领域，ReplugLens/DocVQA数据集为研究者提供了一个标准化的评估平台，其经典使用场景集中于训练和测试模型从扫描文档图像中提取文本信息并回答自然语言问题的能力。该数据集包含丰富的文档图像与对应问答对，常用于验证多模态模型在理解文档布局、识别手写或印刷文字以及进行语义推理方面的性能，推动了文档智能处理技术的进步。

衍生相关工作

围绕ReplugLens/DocVQA数据集，衍生了一系列经典研究工作，包括多模态预训练模型如LayoutLM和DocBERT的优化，这些模型通过融合视觉与文本特征提升了文档理解性能。此外，该数据集还催生了针对长文档处理、跨语言问答以及低资源场景的算法创新，为后续更广泛的文档视觉任务如文档摘要、信息抽取设立了重要基准，持续推动着人工智能在文档分析领域的深入探索。

数据集最近研究