mpdocvqa-qa

Hugging Face2025-05-30 更新2025-05-31 收录

下载链接：

https://huggingface.co/datasets/AHS-uni/mpdocvqa-qa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个包含问题、文档、证据和答案的结构化数据集，适用于文本问答系统。问题字段包含问题ID、文本内容和问题类型；文档字段包含文档ID、类型和页数；证据字段提供证据所在的页面和来源类型；答案字段则提供答案的类型、变体和格式。数据集分为训练集、验证集和测试集，支持机器学习模型的训练和评估。

创建时间：

2025-05-26

原始信息汇总

数据集概述

基本信息

数据集名称: mpdocvqa-qa
下载大小: 2,755,969 字节
数据集大小: 13,056,969 字节

数据集结构

特征

id: 字符串类型
question: 结构体
- id: 字符串类型
- text: 字符串类型
- type: 分类标签（extractive, verification, counting, arithmetic, abstractive, procedural, reasoning, other）
- tags: 列表
  - name: 分类标签（missing, low_quality, inferred, predicted）
  - target: 字符串类型
  - comment: 字符串类型
document: 结构体
- id: 字符串类型
- type: 分类标签（legal, financial, scientific, technical, policy, correspondence, marketing, personal_record, news, other）
- num_pages: 整型（int32）
- tags: 列表
  - name: 分类标签（missing, low_quality, inferred, predicted）
  - target: 字符串类型
  - comment: 字符串类型
evidence: 结构体
- pages: 整型序列（int32）
- sources: 分类标签序列（span, table, chart, image, layout, none, other）
- tags: 列表
  - name: 分类标签（missing, low_quality, inferred, predicted）
  - target: 字符串类型
  - comment: 字符串类型
answer: 结构体
- type: 分类标签（answerable, not_answerable, none）
- variants: 字符串序列
- rationale: 字符串类型
- format: 分类标签（string, reference, integer, float, boolean, list, other, none）
- tags: 列表
  - name: 分类标签（missing, low_quality, inferred, predicted）
  - target: 字符串类型
  - comment: 字符串类型
tags: 列表
- name: 分类标签（missing, low_quality, inferred, predicted）
- target: 字符串类型
- comment: 字符串类型

数据划分

train
- 样本数量: 36,230
- 大小: 10,179,676 字节
val
- 样本数量: 5,187
- 大小: 1,486,831 字节
test
- 样本数量: 5,019
- 大小: 1,390,462 字节

配置信息

默认配置: default
- 数据文件:
  - train: data/train-*
  - val: data/val-*
  - test: data/test-*

搜集汇总

数据集介绍

构建方式

mpdocvqa-qa数据集构建于多领域文档视觉问答任务的需求，通过系统化采集和标注流程完成。数据来源涵盖法律、金融、科学、技术等九类专业文档，每份文档均标注了页面数量及类型属性。问题标注采用八种精细分类体系，包括提取型、验证型、计数型等，并附有证据来源标注（如文本片段、表格、图表等）。答案部分采用七种格式规范，并标注可回答性状态，所有数据条目均通过质量标签（缺失/低质量/推断/预测）进行元数据追踪。

特点

该数据集的核心价值在于其多模态文档理解与复杂问答的深度结合。36,230个训练样本覆盖多样化的文档类型和问题类别，其中证据标注精确到页面级位置和视觉元素类型。问题类型体系特别设计了算术推理、抽象推理等高级认知任务，答案格式支持布尔值、列表等结构化输出。数据质量通过三级标签体系保障，测试集包含5,019个样本，为模型提供严格的跨领域评估基准。

使用方法

使用该数据集时，建议采用分层抽样策略以平衡不同文档类型的分布。模型开发可重点关注证据页面定位与多模态信息整合，利用问题类型标签设计任务特定的处理模块。评估阶段应区分可回答与不可回答问题，并注意答案格式转换的规范性。数据集默认提供训练-验证-测试三划分，测试集结果可反映模型在真实场景下的泛化能力，特别适合研究文档结构理解与复杂推理的结合。

背景与挑战

背景概述

mpdocvqa-qa数据集是近年来文档视觉问答（Document Visual Question Answering, DocVQA）领域的重要资源，由专业研究团队构建，旨在推动多模态文档理解技术的发展。该数据集聚焦于复杂文档场景下的问答任务，涵盖法律、金融、科学、技术等九大专业领域文档类型，其标注体系精细区分了七类问题类型和八类答案格式，为模型在真实场景中的语义理解和推理能力评估提供了标准化基准。数据集的构建体现了跨模态信息融合的前沿研究方向，通过整合文本、表格、图表等异构文档元素，显著提升了文档智能处理领域的研究深度。

当前挑战

该数据集面临的核心挑战体现在两个维度：领域问题层面，专业文档固有的领域专有术语和复杂排版结构对模型的跨模态对齐能力提出严峻考验，特别是法律条文中的逻辑推理和财务表格的数值计算等场景；数据构建层面，多专家协同标注的质量控制、长文档跨页证据的关联标注、以及抽象性问题答案的客观性验证等环节均存在显著实施难度，其中问题类型与文档类型的组合多样性进一步加剧了数据平衡性的维护挑战。

常用场景

经典使用场景

在文档视觉问答（Document VQA）领域，mpdocvqa-qa数据集因其丰富的文档类型和多样的问题类别而成为经典基准。该数据集涵盖了法律、金融、科学、技术等多种专业文档，支持提取性、验证性、计数性、算术性等多种问答任务。研究人员通常利用该数据集评估模型在复杂文档理解任务中的表现，特别是在跨模态信息融合和结构化数据分析方面。

解决学术问题

mpdocvqa-qa数据集有效解决了文档视觉问答领域的关键挑战，包括多模态信息整合、复杂文档结构理解和多样化问题类型处理。该数据集通过提供详尽的标注信息（如证据来源、答案类型和问题类别），为研究者探索文档内容理解、推理能力提升以及跨模态表示学习等核心问题提供了坚实基础。其丰富的文档类型和问题类别设置，显著推动了领域内对专业文档自动化处理技术的研究进展。

衍生相关工作

基于mpdocvqa-qa数据集，研究者们已开展多项创新工作。在模型架构方面，衍生出融合视觉-文本特征的层次化注意力网络；在预训练策略上，发展了针对文档理解的跨模态对比学习方法；在评估基准方面，则催生了多个细粒度文档问答评测任务。这些工作不仅拓展了文档智能的研究边界，也为后续的多模态理解研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集