pdfQA
收藏pdfQA数据集概述
数据集简介
pdfQA是一个多样化、具有挑战性且贴近现实的PDF文档问答基准数据集。该数据集基于论文《pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs》构建,旨在使基于PDF的基准数据集易于访问和使用。
数据集构成
数据集包含两个主要部分:
- syn-pdfQA:合成数据。
- real-pdfQA:真实数据。
数据结构
数据集包含以下字段(标记为*的字段仅存在于syn-pdfQA中):
- file_type(在real-pdfQA中称为“dataset”):数据来源的文件类型(数据集)。问题涉及财务报告、研究文章、书籍和可持续发展披露(在real-pdfQA中,数据集包括ClimRetrieve、ClimateFinanceBench、FinQA、FinanceBench、FeTaQA NaturalQuestions、PaperTab、PaperText、Tat-QA)。
- file_name:问题所针对文档的确切文件名。
- question:针对文档需要回答的问题。
- answer:问题的答案。
- sources*:与原始数据文件(例如“syn-pdfQA”文件夹中的“.csv”文件)相关联的源标识符列表。
- source_text:文档中与回答问题相关的文本列表。
- answer_type*:答案类型,包括是/否、值提取、单词或开放式答案。
- answer_length*:答案的长度。
- reasoning*:答案是需要推理还是信息的复制。
- question_difficulty*:预定义的难度级别(简单、中等、困难)。
- modalities*:用于回答问题的模态(例如,文本、表格、混合模态)。
- num_sources*:回答问题所需的相关源的数量。
- source_spread*:第一个和最后一个相关源之间文本距离的度量。
- sources_position*:相关源在文件中聚集位置的代理指标。
- file_length*:文件的长度。
原始数据与代码
为有效使用数据集,提供了原始数据文件(如“.html”、“.tex”)和PDF文件,位于以下文件夹:
- syn-pdfQA:README文件(https://github.com/tobischimanski/pdfQA/blob/main/syn-pdfQA/README_syn.md)和所有文件的访问链接(https://drive.google.com/drive/folders/15mBSETh24BVkuchvozJ40YWt51OkfL8s?usp=sharing)。
- real-pdfQA:README文件(https://github.com/tobischimanski/pdfQA/blob/main/real-pdfQA/README_real.md)和所有文件的访问链接(https://drive.google.com/drive/folders/1uUd_n4QCg7WBZnoX-4yRwoa-J8OAGIXh?usp=sharing)。
合成数据生成和过滤管道的代码位于“syn-pdfQA”中,并在相应的README文件(https://github.com/tobischimanski/pdfQA/blob/main/syn-pdfQA/README_syn.md)中描述。
引用
如果使用该数据集,请引用: shell @misc{schimanski2026pdfqa, title={pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs}, author={Tobias Schimanski and Imene Kolli and Jingwei Ni and Yu Fan and Ario Saeid Vaghefi and Elliott Ash and Markus Leippold}, year={2026}, eprint={2601.02285}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2601.02285}, }




