pdf-parse-bench

Hugging Face2026-03-25 更新2026-03-26 收录

文档解析

OCR

数据链接：

https://huggingface.co/datasets/piushorn/pdf-parse-bench 数据链接链接失效反馈

官方服务：

资源简介：

PDF Parse Bench 是一个用于评估 PDF 解析解决方案在提取数学公式和表格方面有效性的基准数据集。该数据集包含两个子集：'2026-q1-tables-only' 包含 100 个 PDF 文件和 451 个表格（简单、中等、复杂），'2026-q1-formulas-only' 包含 100 个 PDF 文件和 1413 个行内公式及 657 个显示模式数学公式。所有 PDF 文件均通过 LaTeX 使用随机参数（文档类、字体、边距、列布局、行间距）合成生成，从而自动获得真实数据。评估采用基于大语言模型的语义评分方法（LLM-as-a-Judge），该方法经人类标注研究验证与人工判断具有高度一致性（公式提取 r = 0.74–0.82，表格提取 r = 0.94）。数据集适用于文档解析、OCR 技术评估和数学公式识别等任务，采用 MIT 许可，主要语言为英语。

PDF Parse Bench is a benchmark dataset for evaluating the effectiveness of PDF parsing solutions in extracting mathematical formulas and tables. This dataset includes two subsets: '2026-q1-tables-only' which contains 100 PDF files and 451 tables (simple, medium, and complex), and '2026-q1-formulas-only' which consists of 100 PDF files, 1413 inline mathematical formulas, and 657 display-mode mathematical formulas. All PDF files are synthetically generated via LaTeX with random parameters including document class, font, margin, column layout, and line spacing, allowing automatic acquisition of ground-truth data. The evaluation adopts a large language model-based semantic scoring approach (LLM-as-a-Judge), which has been validated by human annotation studies to exhibit high consistency with manual judgment (formula extraction: r = 0.74–0.82; table extraction: r = 0.94). This dataset is suitable for tasks such as document parsing, OCR technology evaluation, and mathematical formula recognition, and is released under the MIT License with English as its primary language.

创建时间：

2026-03-24

原始信息汇总

PDF Parse Bench 数据集概述

数据集基本信息

名称: PDF Parse Bench
地址: https://huggingface.co/datasets/piushorn/pdf-parse-bench
许可证: MIT
任务类别: 图像到文本、文档问答
语言: 英语
标签: pdf解析、OCR、基准测试、数学公式、表格、LLM作为裁判
规模类别: n<1K

数据集配置

数据集包含两个独立的配置：

配置名称: 2026-q1-tables-only
- 数据文件: 2026-q1-tables-only/test.jsonl
- 分割: 测试集
配置名称: 2026-q1-formulas-only
- 数据文件: 2026-q1-formulas-only/test.jsonl
- 分割: 测试集

数据集内容与目的

核心目的: 用于评估PDF解析解决方案从文档中提取数学公式和表格的有效性。
数据生成: 使用LaTeX合成生成具有多样化格式场景的PDF文档，并通过随机化参数（文档类别、字体、边距、列布局、行间距）来增加多样性。
评估方法: 使用LLM-as-a-Judge对提取的内容进行语义评分。该方法在符合人类判断方面显著优于传统指标。

数据集具体构成

2026-q1-tables-only: 包含100个PDF文件，涵盖451个表格（简单、中等、复杂）。
2026-q1-formulas-only: 包含100个PDF文件，涵盖1413个行内公式和657个显示模式数学公式。
真实值来源: 由于PDF由LaTeX源代码生成，因此真实值可自动获取。

评估方法详情

评分标准: 所有分数均为LLM-as-a-Judge在0-10分尺度上的评分，由Gemini 3 Flash通过OpenRouter进行评判。
验证依据: 基于两项人工标注研究验证了LLM评判相较于基于规则指标的优越性：
- 公式指标研究: 750个人工评分显示，文本指标r = 0.01，CDM r = 0.31，LLM评判r = 0.74–0.82。
- 表格指标研究: 1500多个人工评分显示，基于规则的指标（TEDS, GriTS）最高为r = 0.70，LLM评判r = 0.94。

使用方式

安装: pip install pdf-parse-bench
完整评估指南: 参见 github.com/phorn1/pdf-parse-bench

引用信息

bibtex @misc{horn2025formulabench, title = {Benchmarking Document Parsers on Mathematical Formula Extraction from PDFs}, author = {Horn, Pius and Keuper, Janis}, year = {2025}, eprint = {2511.10390}, archivePrefix = {arXiv}, primaryClass = {cs.CV}, url = {https://arxiv.org/abs/2512.09874} }

@misc{horn2026tablebench, title = {Benchmarking PDF Parsers on Table Extraction with LLM-based Semantic Evaluation}, author = {Horn, Pius and Keuper, Janis}, year = {2026}, eprint = {2603.18652}, archivePrefix = {arXiv}, primaryClass = {cs.CV}, url = {https://arxiv.org/abs/2603.18652} }

致谢

本工作由德国联邦研究、技术和空间部（BMFTR）在“与企业的应用科技大学合作研究（FH-Kooperativ）”计划中，通过联合项目LLMpraxis（资助号13FH622KX2）支持。

搜集汇总

数据集介绍

构建方式

在文档智能解析领域，准确提取PDF中的数学公式与表格一直是技术难点。pdf-parse-bench基准数据集通过合成方式构建，利用LaTeX生成包含多样化排版场景的PDF文档。数据集包含两个子集：'2026-q1-tables-only'汇聚了100个PDF文件中的451个表格，涵盖简单、中等与复杂三种难度层级；'2026-q1-formulas-only'则收录了100个PDF中的1413个行内公式与657个展示模式公式。PDF的生成参数如文档类、字体、边距、栏布局及行间距均经过随机化处理，以模拟真实世界的多样性。由于PDF源自LaTeX源码，地面真实标签可自动获取，确保了标注的精确性与一致性。

特点

该数据集的核心创新在于采用'LLM-as-a-Judge'语义评估范式，相较于传统基于规则的指标，其与人类判断的一致性显著提升。实验验证表明，在公式提取任务中，文本度量指标与人类评分的相关系数仅为0.01，而LLM评判可达0.74-0.82；在表格提取任务中，传统方法最高相关系数为0.70，LLM评判则高达0.94。数据集通过0-10分的评分量表，对多种解析器（如Gemini 3 Flash、Mistral OCR、Mathpix等）在表格与公式提取上的表现进行排序，为研究社区提供了可复现的标准化评估框架。

使用方法

使用者可通过pip安装pdf-parse-bench工具包，并依据GitHub仓库中的完整评估指南进行解析器的性能测试。数据集以JSONL格式存储，每个子集对应一个测试文件，便于加载与处理。评估流程包括：使用待测解析器对合成PDF进行内容提取，随后调用LLM（默认为Gemini 3 Flash）对提取结果与地面真实标签进行语义比对打分。该框架支持自定义解析器接入，鼓励研究者将自身模型与排行榜上的先进方案进行横向对比，从而推动PDF解析技术的进步。

背景与挑战

背景概述

在数字化文档处理领域，从PDF中精确提取数学公式与表格始终是一项极具挑战性的任务，其成果直接关系到学术文献挖掘、知识图谱构建及自动化办公等下游应用的质量。pdf-parse-bench基准数据集由Pius Horn与Janis Keuper于2025至2026年间创建，依托德国联邦研究、技术与航天部支持的LLMpraxis项目，旨在系统评估各类PDF解析方案在复杂结构化内容提取上的真实效能。该数据集通过LaTeX生成包含多样化排版场景的合成PDF，涵盖表格与数学公式两大核心子集，并创新性地引入基于大语言模型的语义评判机制，从而突破了传统规则指标的局限性，为文档解析领域树立了更贴近人类评估标准的评测标杆。其研究成果已发表于arXiv，迅速成为衡量解析器性能的重要参照。

当前挑战

pdf-parse-bench所聚焦的核心挑战在于PDF中非文本元素的精确提取，尤其是数学公式与表格这类高度结构化且排版多变的内容。传统基于规则或坐标的度量方法，如TEDS与GriTS，与人类判断的相关性较低，无法真实反映语义保真度，因此该数据集采用LLM-as-a-Judge方案，以0–10分制进行语义级评分，显著提升了评估的可靠性。在数据集构建过程中，挑战同样严峻：需生成覆盖简单、中等与复杂三种难度的451个表格及2070个公式实例，同时随机化文档类、字体、边距与栏布局等参数以确保多样性，并依赖LaTeX源码自动获取精确的标注真相，从而在合成数据中平衡真实感与可控性。

常用场景

经典使用场景

在文档智能解析与学术文献自动化处理领域，PDF文档中数学公式与表格的精准提取始终是一项极具挑战性的核心任务。pdf-parse-bench作为一项专为此场景设计的基准测试数据集，通过合成生成具有多样化排版参数的LaTeX文档，系统评估各类PDF解析方案在复杂数学表达式与多层级表格结构上的提取性能。该数据集包含两个子集，分别聚焦于451张表格与超过两千个数学公式，为研究者提供了标准化、可复现的评测平台，推动解析算法在学术论文、技术报告等专业文档中的鲁棒性提升。

实际应用

在实际应用中，pdf-parse-bench为金融年报分析、科研文献知识库构建、教育领域试题数字化等场景提供了关键的解析能力验证工具。例如，在自动化处理包含大量统计表格的财务报告时，该基准能够筛选出在复杂表格结构（如跨行合并、嵌套表头）上表现优异的解析器；在数学教材数字化过程中，其公式提取评测结果直接指导了高精度OCR系统的选型与优化。此外，该基准也被用于评估多模态大模型（如Gemini 3 Flash、Qwen3-VL）在文档理解任务中的实际表现，推动工业级文档处理流水线的性能边界。

衍生相关工作

基于pdf-parse-bench的评估框架与公开排行榜，衍生了一系列具有影响力的研究工作。一方面，该数据集催生了针对数学公式与表格的专用解析模型改进，如LightOnOCR-2-1B与Mistral OCR在排行榜上的优异表现推动了轻量级OCR架构的优化；另一方面，两项配套的人类标注研究（formula-metric-study与table-metric-study）系统验证了语义评估方法的有效性，成为后续文档质量评估工作的参照基准。此外，该基准的LLM-as-a-Judge方法论已被广泛应用于其他文档理解任务的评估中，如学术图表解析与手写公式识别，形成了以语义对齐为核心的评估新范式。

以上内容由遇见数据集搜集并总结生成