pdf-parse-bench
收藏Hugging Face2026-03-25 更新2026-03-26 收录
下载链接:
https://huggingface.co/datasets/piushorn/pdf-parse-bench
下载链接
链接失效反馈官方服务:
资源简介:
PDF Parse Bench 是一个用于评估 PDF 解析解决方案在提取数学公式和表格方面有效性的基准数据集。该数据集包含两个子集:'2026-q1-tables-only' 包含 100 个 PDF 文件和 451 个表格(简单、中等、复杂),'2026-q1-formulas-only' 包含 100 个 PDF 文件和 1413 个行内公式及 657 个显示模式数学公式。所有 PDF 文件均通过 LaTeX 使用随机参数(文档类、字体、边距、列布局、行间距)合成生成,从而自动获得真实数据。评估采用基于大语言模型的语义评分方法(LLM-as-a-Judge),该方法经人类标注研究验证与人工判断具有高度一致性(公式提取 r = 0.74–0.82,表格提取 r = 0.94)。数据集适用于文档解析、OCR 技术评估和数学公式识别等任务,采用 MIT 许可,主要语言为英语。
创建时间:
2026-03-24
原始信息汇总
PDF Parse Bench 数据集概述
数据集基本信息
- 名称: PDF Parse Bench
- 地址: https://huggingface.co/datasets/piushorn/pdf-parse-bench
- 许可证: MIT
- 任务类别: 图像到文本、文档问答
- 语言: 英语
- 标签: pdf解析、OCR、基准测试、数学公式、表格、LLM作为裁判
- 规模类别: n<1K
数据集配置
数据集包含两个独立的配置:
- 配置名称:
2026-q1-tables-only- 数据文件:
2026-q1-tables-only/test.jsonl - 分割: 测试集
- 数据文件:
- 配置名称:
2026-q1-formulas-only- 数据文件:
2026-q1-formulas-only/test.jsonl - 分割: 测试集
- 数据文件:
数据集内容与目的
- 核心目的: 用于评估PDF解析解决方案从文档中提取数学公式和表格的有效性。
- 数据生成: 使用LaTeX合成生成具有多样化格式场景的PDF文档,并通过随机化参数(文档类别、字体、边距、列布局、行间距)来增加多样性。
- 评估方法: 使用LLM-as-a-Judge对提取的内容进行语义评分。该方法在符合人类判断方面显著优于传统指标。
数据集具体构成
2026-q1-tables-only: 包含100个PDF文件,涵盖451个表格(简单、中等、复杂)。2026-q1-formulas-only: 包含100个PDF文件,涵盖1413个行内公式和657个显示模式数学公式。- 真实值来源: 由于PDF由LaTeX源代码生成,因此真实值可自动获取。
评估方法详情
- 评分标准: 所有分数均为LLM-as-a-Judge在0-10分尺度上的评分,由Gemini 3 Flash通过OpenRouter进行评判。
- 验证依据: 基于两项人工标注研究验证了LLM评判相较于基于规则指标的优越性:
使用方式
- 安装:
pip install pdf-parse-bench - 完整评估指南: 参见 github.com/phorn1/pdf-parse-bench
引用信息
bibtex @misc{horn2025formulabench, title = {Benchmarking Document Parsers on Mathematical Formula Extraction from PDFs}, author = {Horn, Pius and Keuper, Janis}, year = {2025}, eprint = {2511.10390}, archivePrefix = {arXiv}, primaryClass = {cs.CV}, url = {https://arxiv.org/abs/2512.09874} }
@misc{horn2026tablebench, title = {Benchmarking PDF Parsers on Table Extraction with LLM-based Semantic Evaluation}, author = {Horn, Pius and Keuper, Janis}, year = {2026}, eprint = {2603.18652}, archivePrefix = {arXiv}, primaryClass = {cs.CV}, url = {https://arxiv.org/abs/2603.18652} }
致谢
本工作由德国联邦研究、技术和空间部(BMFTR)在“与企业的应用科技大学合作研究(FH-Kooperativ)”计划中,通过联合项目LLMpraxis(资助号13FH622KX2)支持。



