ReplugLens/DocVQA
收藏Hugging Face2024-06-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ReplugLens/DocVQA
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: questionId
dtype: string
- name: question
dtype: string
- name: question_types
sequence: string
- name: image
dtype: image
- name: docId
dtype: int64
- name: ucsf_document_id
dtype: string
- name: ucsf_document_page_no
dtype: string
- name: answers
sequence: string
- name: data_split
dtype: string
splits:
- name: validation
num_bytes: 3578892078.125
num_examples: 5349
- name: test
num_bytes: 3659290808.644
num_examples: 5188
download_size: 2167757059
dataset_size: 7238182886.769
configs:
- config_name: default
data_files:
- split: validation
path: data/validation-*
- split: test
path: data/test-*
---
数据集详情(dataset_info):
特征字段:
- 问题ID(questionId):字符串类型
- 问题文本(question):字符串类型
- 问题类型集合(question_types):字符串序列类型
- 图像(image):图像数据类型
- 文档ID(docId):64位整数类型
- UCSF文档ID(ucsf_document_id):字符串类型
- UCSF文档页码(ucsf_document_page_no):字符串类型
- 答案集合(answers):字符串序列类型
- 数据划分标识(data_split):字符串类型
数据集划分:
- 划分名称:验证集(validation),字节占用量:3578892078.125,样本数量:5349
- 划分名称:测试集(test),字节占用量:3659290808.644,样本数量:5188
下载总大小:2167757059
数据集总大小:7238182886.769
配置方案:
- 配置名:默认配置(default),数据文件配置:
- 验证集划分对应数据路径:data/validation-*
- 测试集划分对应数据路径:data/test-*
提供机构:
ReplugLens
原始信息汇总
数据集概述
数据集特征
- questionId: 数据类型为字符串
- question: 数据类型为字符串
- question_types: 数据类型为字符串序列
- image: 数据类型为图像
- docId: 数据类型为整数64位
- ucsf_document_id: 数据类型为字符串
- ucsf_document_page_no: 数据类型为字符串
- answers: 数据类型为字符串序列
- data_split: 数据类型为字符串
数据集分割
- 验证集 (validation):
- 示例数量: 5349
- 数据量: 3578892078.125字节
- 测试集 (test):
- 示例数量: 5188
- 数据量: 3659290808.644字节
数据集大小
- 下载大小: 2167757059字节
- 数据集总大小: 7238182886.769字节
数据文件配置
- 默认配置 (default):
- 验证集路径: data/validation-*
- 测试集路径: data/test-*
搜集汇总
数据集介绍

构建方式
在文档视觉问答领域,ReplugLens/DocVQA数据集通过系统化采集真实文档图像构建而成。该数据集整合了多样化文档样本,每份样本均包含高分辨率扫描图像,并针对图像内容精心设计了自然语言问题。标注过程中,专家对问题类型进行细致分类,同时提供多参考答案,确保数据覆盖广泛问答场景。数据划分遵循严谨标准,分为验证集与测试集,以支持模型评估与泛化能力验证。
特点
本数据集核心特点在于其多模态结构,融合视觉图像与文本问答信息。每个样本不仅包含文档图像,还关联了唯一标识符、文档元数据及问题类型标签,支持细粒度分析。数据涵盖丰富文档类型与版面,问题设计兼顾事实性查询与推理任务,答案以序列形式呈现,增强了评估的灵活性。验证集与测试集规模均衡,为模型性能提供了可靠基准。
使用方法
使用该数据集时,研究者可加载图像与对应问题,进行端到端文档视觉问答模型训练或评估。数据集支持直接读取图像字段与文本字段,便于多模态模型输入处理。通过问题类型标签,用户可针对特定任务进行子集筛选或分析。验证集与测试集已预先划分,适用于模型调优与最终性能测试,输出答案可与提供的参考答案序列进行比对,以计算准确率等指标。
背景与挑战
背景概述
文档视觉问答(DocVQA)作为多模态人工智能领域的关键分支,旨在推动机器对文档图像内容的理解与交互能力。该数据集由ReplugLens团队构建,聚焦于从扫描文档中提取文本信息并回答自然语言问题,其核心研究问题在于弥合视觉文档分析与语义理解之间的鸿沟。自问世以来,DocVQA不仅为文档智能研究提供了标准化评估基准,还显著促进了光学字符识别、布局分析与问答系统的融合发展,对金融、法律及医疗等行业的自动化文档处理产生了深远影响。
当前挑战
DocVQA数据集所应对的领域挑战主要在于文档结构的复杂性与问答任务的多样性,例如处理表格、图表及手写文本等多模态元素的联合理解,以及应对开放域问答中的语义推理需求。在构建过程中,研究人员需克服大规模文档图像的高质量标注难题,包括确保答案的精确性与上下文一致性,同时平衡数据集中文档类型与语言风格的多样性,以保障模型训练的泛化能力与鲁棒性。
常用场景
经典使用场景
在文档视觉问答领域,ReplugLens/DocVQA数据集为研究者提供了一个标准化的评估平台,其经典使用场景集中于训练和测试模型从扫描文档图像中提取文本信息并回答自然语言问题的能力。该数据集包含丰富的文档图像与对应问答对,常用于验证多模态模型在理解文档布局、识别手写或印刷文字以及进行语义推理方面的性能,推动了文档智能处理技术的进步。
衍生相关工作
围绕ReplugLens/DocVQA数据集,衍生了一系列经典研究工作,包括多模态预训练模型如LayoutLM和DocBERT的优化,这些模型通过融合视觉与文本特征提升了文档理解性能。此外,该数据集还催生了针对长文档处理、跨语言问答以及低资源场景的算法创新,为后续更广泛的文档视觉任务如文档摘要、信息抽取设立了重要基准,持续推动着人工智能在文档分析领域的深入探索。
数据集最近研究
最新研究方向
在文档视觉问答领域,ReplugLens/DocVQA数据集正推动着多模态理解技术的深度发展。当前研究聚焦于结合视觉与文本信息的端到端模型架构,利用Transformer等先进神经网络,实现对扫描文档、表格和图表中复杂内容的精准解析与推理。热点方向包括跨模态预训练策略的优化,以及模型在医疗、金融等专业场景下的领域自适应能力提升,这些进展显著增强了自动化文档处理系统的实用性与可靠性,为知识管理智能化奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



