pdfQA

github2026-01-06 更新2026-01-08 收录

下载链接：

https://github.com/tobischimanski/pdfQA

下载链接

链接失效反馈

官方服务：

资源简介：

pdfQA是一个多样、具有挑战性且现实的基于PDF的问答数据集。它包含来自财务报告、研究文章、书籍和可持续发展披露等多种文件类型的问题和答案。数据集结构详细，包括问题、答案、相关文本来源等信息，旨在为问答系统提供基准测试。

pdfQA is a diverse, challenging and realistic PDF-based question answering dataset. It contains questions and answers from various document types including financial reports, research articles, books, and sustainability disclosures. The dataset has a detailed structure, encompassing information such as questions, answers, and relevant text sources, and it is designed to serve as a benchmark for question answering systems.

创建时间：

2026-01-05

原始信息汇总

pdfQA数据集概述

数据集简介

pdfQA是一个多样化、具有挑战性且贴近现实的PDF文档问答基准数据集。该数据集基于论文《pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs》构建，旨在使基于PDF的基准数据集易于访问和使用。

数据集构成

数据集包含两个主要部分：

syn-pdfQA：合成数据。
real-pdfQA：真实数据。

数据结构

数据集包含以下字段（标记为*的字段仅存在于syn-pdfQA中）：

file_type（在real-pdfQA中称为“dataset”）：数据来源的文件类型（数据集）。问题涉及财务报告、研究文章、书籍和可持续发展披露（在real-pdfQA中，数据集包括ClimRetrieve、ClimateFinanceBench、FinQA、FinanceBench、FeTaQA NaturalQuestions、PaperTab、PaperText、Tat-QA）。
file_name：问题所针对文档的确切文件名。
question：针对文档需要回答的问题。
answer：问题的答案。
sources*：与原始数据文件（例如“syn-pdfQA”文件夹中的“.csv”文件）相关联的源标识符列表。
source_text：文档中与回答问题相关的文本列表。
answer_type*：答案类型，包括是/否、值提取、单词或开放式答案。
answer_length*：答案的长度。
reasoning*：答案是需要推理还是信息的复制。
question_difficulty*：预定义的难度级别（简单、中等、困难）。
modalities*：用于回答问题的模态（例如，文本、表格、混合模态）。
num_sources*：回答问题所需的相关源的数量。
source_spread*：第一个和最后一个相关源之间文本距离的度量。
sources_position*：相关源在文件中聚集位置的代理指标。
file_length*：文件的长度。

原始数据与代码

为有效使用数据集，提供了原始数据文件（如“.html”、“.tex”）和PDF文件，位于以下文件夹：

syn-pdfQA：README文件（https://github.com/tobischimanski/pdfQA/blob/main/syn-pdfQA/README_syn.md）和所有文件的访问链接（https://drive.google.com/drive/folders/15mBSETh24BVkuchvozJ40YWt51OkfL8s?usp=sharing）。
real-pdfQA：README文件（https://github.com/tobischimanski/pdfQA/blob/main/real-pdfQA/README_real.md）和所有文件的访问链接（https://drive.google.com/drive/folders/1uUd_n4QCg7WBZnoX-4yRwoa-J8OAGIXh?usp=sharing）。

合成数据生成和过滤管道的代码位于“syn-pdfQA”中，并在相应的README文件（https://github.com/tobischimanski/pdfQA/blob/main/syn-pdfQA/README_syn.md）中描述。

引用

如果使用该数据集，请引用： shell @misc{schimanski2026pdfqa, title={pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs}, author={Tobias Schimanski and Imene Kolli and Jingwei Ni and Yu Fan and Ario Saeid Vaghefi and Elliott Ash and Markus Leippold}, year={2026}, eprint={2601.02285}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.02285}, }

搜集汇总

数据集介绍

构建方式

pdfQA数据集的构建融合了合成与真实数据双重路径，以覆盖PDF文档问答的多元场景。合成数据部分通过精心设计的生成与过滤流程，模拟了从简单到复杂的问答需求，确保问题与答案在逻辑和语言上的自然性。真实数据则从金融报告、学术论文、书籍及可持续发展披露等多样化文档中提取，形成了涵盖多领域、多模态的问答对，为研究提供了坚实的现实基础。

特点

该数据集以其多样性与挑战性著称，不仅覆盖了文本、表格及混合模态的问答形式，还标注了答案类型、推理需求及问题难度等丰富维度。每个问答对均关联原始PDF文档及来源文本，支持对文档内部结构的深入分析，如来源分布与文件长度等元数据，为评估模型在真实场景下的理解与推理能力提供了全面而细致的基准。

使用方法

研究者可通过提供的原始数据文件与PDF文档，直接加载数据集进行模型训练与评估。数据集结构清晰，包含问题、答案、来源文本及各类元数据字段，便于针对特定任务如信息抽取或复杂推理进行定制化分析。配套代码与详细说明文档进一步简化了数据处理流程，支持对合成数据生成机制的复现与扩展，推动PDF问答技术的迭代与创新。

背景与挑战

背景概述

随着人工智能在自然语言处理领域的深入发展，文档智能逐渐成为研究热点，特别是针对PDF格式文档的自动问答技术。pdfQA数据集由苏黎世大学等机构的研究团队于2026年创建，旨在构建一个多样、具有挑战性且贴近现实的PDF问答基准。该数据集聚焦于从金融报告、研究论文、书籍及可持续发展披露等多元文档类型中提取信息，核心研究问题在于推动模型理解复杂文档结构、跨模态内容以及进行深度推理的能力。pdfQA的推出为文档智能领域提供了重要的评估资源，促进了问答系统在真实场景中的应用与优化。

当前挑战

pdfQA数据集致力于解决PDF文档问答这一复杂任务，其核心挑战在于文档结构的异构性，如文本、表格及混合模态内容的整合，要求模型具备跨模态理解与信息融合能力。同时，问题设计涵盖从简单信息检索到需要多步推理的难题，增加了模型处理的难度。在构建过程中，研究团队面临合成数据生成与真实数据标注的双重挑战，需确保生成的问题既多样又符合现实场景，同时保持答案的准确性与来源可追溯性，这些因素共同构成了数据集构建的技术壁垒。

常用场景

经典使用场景

在文档智能与自然语言处理领域，pdfQA数据集为基于PDF文档的问答任务提供了标准化评估基准。该数据集通过整合金融报告、研究论文、书籍及可持续发展披露等多类型PDF文档，构建了涵盖文本、表格及混合模态的复杂问答对。其经典使用场景在于评估和训练模型从非结构化PDF中提取关键信息、进行多步推理以及跨模态理解的能力，尤其适用于测试模型在真实世界文档中的泛化性能。

实际应用

在实际应用层面，pdfQA数据集能够支撑金融分析、学术文献检索及企业报告审查等场景。例如，在金融领域，模型可基于该数据集训练后快速从年报中提取关键财务指标；在科研中，辅助研究者从长篇论文中定位核心方法或结论；在企业可持续发展评估中，自动化分析环境披露文档的具体内容。这些应用显著提升了专业文档处理的效率与准确性，降低了人工审核的成本。

衍生相关工作

围绕pdfQA数据集，已衍生出一系列聚焦于文档理解与问答的经典研究工作。例如，基于其多模态特性，研究者开发了融合文本与表格结构的端到端问答模型；针对其长文档挑战，提出了分层注意力机制与跨段落推理方法；此外，该数据集也促进了合成数据生成与真实数据过滤技术的研究，为构建更高质量的文档问答基准提供了方法论参考。这些工作共同推动了文档智能领域的技术前沿。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集