pdfQA
收藏arXiv2026-01-06 更新2026-01-07 收录
下载链接:
https://github.com/tobischimanski/pdfQA
下载链接
链接失效反馈官方服务:
资源简介:
pdfQA是由苏黎世大学团队构建的多领域PDF问答基准数据集,包含人工标注和LLM合成的两种数据子集。该数据集覆盖金融报告、科研论文等10类复杂性维度,总计4K条高质量QA对,原始数据经严格筛选后保留率约25%。数据来源包括9个现有标注集及自主采集的PDF文档,通过语义聚类和难度分级确保挑战性。主要应用于端到端问答系统评估,解决PDF信息检索、多模态理解等现实任务中的性能测量问题。
pdfQA is a multi-domain PDF question answering benchmark dataset constructed by the research team at the University of Zurich. It contains two subsets: manually annotated data and LLM-synthesized data. The dataset covers 10 complexity dimensions across domains including financial reports, research papers, and other fields, with a total of 4K high-quality QA pairs. After strict screening, the retention rate of the original dataset is approximately 25%. Its data sources include 9 existing annotated datasets and independently collected PDF documents. Semantic clustering and difficulty grading are utilized to ensure the dataset's challenging nature. It is primarily used for end-to-end question answering system evaluation, addressing performance measurement issues in practical tasks such as PDF information retrieval and multimodal understanding.
提供机构:
苏黎世大学; 苏黎世联邦理工学院; 瑞士金融研究所
创建时间:
2026-01-06
原始信息汇总
pdfQA数据集概述
数据集简介
pdfQA是一个多样化、具有挑战性且贴近现实的PDF文档问答基准数据集。该数据集旨在使基于PDF的基准数据集易于访问和使用。
数据集构成
数据集包含两个主要部分:
- syn-pdfQA:合成数据。
- real-pdfQA:真实数据。
数据结构
数据集中每条数据包含以下字段(标记有 * 的字段仅存在于 syn-pdfQA 中):
- file_type(在 real-pdfQA 中称为 "dataset"):数据来源的文件类型(数据集)。问题涉及财务报告、研究文章、书籍和可持续发展披露(在 real-pdfQA 中,数据集包括 ClimRetrieve, ClimateFinanceBench, FinQA, FinanceBench, FeTaQA NaturalQuestions, PaperTab, PaperText, Tat-QA)。
- file_name:QA对所基于的文档的确切文件名。
- question:针对文档需要回答的问题。
- answer:问题的答案。
- sources*:连接到原始数据文件(例如 "syn-pdfQA" 文件夹中的 ".csv" 文件)的源标识符列表。
- source_text:文档中与回答问题相关的文本列表。
- answer_type*:答案类型,包括是/否、值提取、单词或开放式答案。
- answer_length*:答案的长度。
- reasoning*:答案是需要信息复制还是需要推理。
- question_difficulty*:预定义的难度级别(简单、中等、困难)。
- modalities*:用于回答问题的模态(例如,文本、表格、混合模态)。
- num_sources*:回答问题所需的相关源的数量。
- source_spread*:第一个和最后一个相关源之间文本距离的度量。
- sources_position*:相关源在文件中聚集位置的代理指标。
- file_length*:文件的长度。
原始数据与代码
为有效使用数据集,提供了原始数据文件(例如 ".html"、".tex")和PDF文件,位于以下文件夹:
- syn-pdfQA:README文件(https://github.com/tobischimanski/pdfQA/blob/main/syn-pdfQA/README_syn.md)和所有文件的访问链接(https://drive.google.com/drive/folders/15mBSETh24BVkuchvozJ40YWt51OkfL8s?usp=sharing)。
- real-pdfQA:README文件(https://github.com/tobischimanski/pdfQA/blob/main/real-pdfQA/README_real.md)和所有文件的访问链接(https://drive.google.com/drive/folders/1uUd_n4QCg7WBZnoX-4yRwoa-J8OAGIXh?usp=sharing)。
合成数据生成和过滤管道的代码位于 "syn-pdfQA" 文件夹中,并在相应的README文件(https://github.com/tobischimanski/pdfQA/blob/main/syn-pdfQA/README_syn.md)中进行了描述。
引用
如果使用该数据集,请引用: shell @misc{schimanski2026pdfqa, title={pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs}, author={Tobias Schimanski and Imene Kolli and Jingwei Ni and Yu Fan and Ario Saeid Vaghefi and Elliott Ash and Markus Leippold}, year={2026}, eprint={2601.02285}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.02285}, }
搜集汇总
数据集介绍

构建方式
在PDF文档问答研究领域,pdfQA数据集的构建采用了双轨并行策略,以兼顾多样性与真实性。其合成子集syn-pdfQA通过一个严谨的四阶段流程生成:首先从财务报告、研究论文、书籍和可持续发展披露中选取同时具备PDF和结构化源文件(如.tex、.html)的文档对;随后将源文件处理为段落级结构化文本,并利用嵌入模型进行语义聚类;接着,基于从语义或位置邻近性中随机采样的5-15个源段落,指导GPT-4模型依据预设的十项复杂度维度生成问答对;最后,通过形式性、内部有效性及外部有效性三重质量过滤,并结合基于GPT-4o-mini的难度筛选,从初始生成的7655对中精炼出1982对高质量且具挑战性的样本。其实证子集real-pdfQA则整合了九个现有的人类标注PDF问答基准,通过相同的质量与难度过滤流程,从初始的22866对中筛选出2041对,确保了数据在真实场景下的严谨性与挑战性。
特点
pdfQA数据集的核心特征在于其多维度的复杂性与严格的质控标准。该数据集通过精心设计的十项复杂度维度对问答对进行系统性标注,涵盖了答案类型、推理需求、模态组合、相关源数量、源分布跨度及文件类型与长度等多个层面,为深入分析模型在不同认知负荷下的表现提供了精细的解剖工具。数据集由规模均为两千对的合成子集与人类标注子集构成,两者均经过基于大型语言模型的三阶段质量验证与基于模型解题能力的难度筛选,有效过滤了形式不当、内容无效或过于简单的样本。特别地,人类标注子集汇集了来自金融、气候、学术等多元领域的真实基准,其问答对经实证检验展现出比合成数据更高的挑战性,为评估模型在真实、复杂场景下的推理与信息整合能力提供了可靠的基础。
使用方法
pdfQA数据集旨在为基于PDF文档的端到端问答系统评估提供全面基准。研究者可将其用于评测信息检索、文档解析、长上下文理解及多模态推理等环节的局部优化效果。具体而言,对于syn-pdfQA子集,可利用其丰富的复杂度维度标签,深入探究不同模型架构或算法在特定维度(如处理表格数据、进行多源推理或应对长文档)上的性能差异与瓶颈。对于real-pdfQA子集,则更适合评估模型在融合了领域知识的真实、复杂任务上的泛化能力与鲁棒性。典型的使用流程包括:使用解析器(如PyMUPDF)处理源PDF文档以获取文本上下文,将上下文与问题输入至待评估的问答模型,最后利用数据集中提供的标准答案,通过自动化评估方法(如基于LLM的G-Eval)或人工判断来量化模型输出的正确性。该数据集支持对完整流水线或其中特定模块进行分步评估,是推动现实场景中证据型问答技术发展的关键资源。
背景与挑战
背景概述
PDF文档作为互联网上仅次于HTML的第二大常用文档类型,在基于证据的问答领域长期缺乏真实且多样化的基准数据集。由苏黎世大学、苏黎世联邦理工学院和瑞士金融研究所的研究人员于2026年发布的pdfQA数据集,旨在填补这一空白。该数据集聚焦于从原生PDF文档中进行端到端问答这一核心研究问题,通过整合多领域的人类标注数据与精心设计的合成数据,构建了包含十个复杂性维度的评估框架。pdfQA的创建推动了文档智能领域向更真实、更细粒度评估范式的转变,为检索增强生成等技术的优化提供了关键基准。
当前挑战
pdfQA数据集致力于解决从复杂PDF文档中进行可靠问答的领域挑战,这涉及处理混合模态内容、长文档理解以及需要多步推理的问题。其构建过程面临双重挑战:在领域层面,需确保问答对在涵盖表格、文本等多种模态的同时,保持对整篇文档的全局有效性,避免因局部引用而产生歧义;在构建层面,挑战在于设计严谨的质量与难度过滤流程,以从海量初始数据中筛选出既正确又具有足够挑战性的样本,同时平衡合成数据的多样性与人类标注数据的真实性,并解决原始PDF文档获取与解析中的技术难题。
常用场景
经典使用场景
在基于证据的问答研究领域,pdfQA数据集为评估端到端问答系统在真实PDF文档上的性能提供了基准。该数据集通过涵盖金融报告、研究论文、书籍和可持续发展披露等多领域文档,并区分十个复杂性维度,能够全面测试模型在信息检索、多模态理解和复杂推理等方面的能力。研究者可利用其评估长上下文处理、跨文档信息整合以及表格与文本混合模态理解等关键任务。
实际应用
在实际应用中,pdfQA数据集能够支持生成式搜索引擎和检索增强生成系统的开发与优化。金融机构可利用其评估自动化财务报告分析工具的准确性;学术机构可测试文献智能问答系统的性能;企业可持续性披露平台可借助其提升信息提取的可靠性。该数据集通过模拟真实场景中的复杂查询,为开发能够在长文档、多模态和跨领域背景下稳定工作的智能问答系统提供了关键训练与评估资源。
衍生相关工作
围绕pdfQA数据集,衍生出多个针对特定复杂性维度的深入研究。例如,基于其多模态分类,研究者开发了专门处理表格与文本混合问答的模型优化方法;借鉴其源文档位置分析,出现了针对长文档中间信息丢失问题的注意力机制改进;其难度过滤机制启发了后续工作对基准数据质量控制的标准化流程。这些工作共同推动了PDF文档智能处理技术向更细粒度、更可靠的方向发展。
以上内容由遇见数据集搜集并总结生成



