five

pdf-parse-bench

收藏
Hugging Face2026-03-25 更新2026-03-26 收录
下载链接:
https://huggingface.co/datasets/piushorn/pdf-parse-bench
下载链接
链接失效反馈
官方服务:
资源简介:
PDF Parse Bench 是一个用于评估 PDF 解析解决方案在提取数学公式和表格方面有效性的基准数据集。该数据集包含两个子集:'2026-q1-tables-only' 包含 100 个 PDF 文件和 451 个表格(简单、中等、复杂),'2026-q1-formulas-only' 包含 100 个 PDF 文件和 1413 个行内公式及 657 个显示模式数学公式。所有 PDF 文件均通过 LaTeX 使用随机参数(文档类、字体、边距、列布局、行间距)合成生成,从而自动获得真实数据。评估采用基于大语言模型的语义评分方法(LLM-as-a-Judge),该方法经人类标注研究验证与人工判断具有高度一致性(公式提取 r = 0.74–0.82,表格提取 r = 0.94)。数据集适用于文档解析、OCR 技术评估和数学公式识别等任务,采用 MIT 许可,主要语言为英语。
创建时间:
2026-03-24
原始信息汇总

PDF Parse Bench 数据集概述

数据集基本信息

  • 名称: PDF Parse Bench
  • 地址: https://huggingface.co/datasets/piushorn/pdf-parse-bench
  • 许可证: MIT
  • 任务类别: 图像到文本、文档问答
  • 语言: 英语
  • 标签: pdf解析、OCR、基准测试、数学公式、表格、LLM作为裁判
  • 规模类别: n<1K

数据集配置

数据集包含两个独立的配置:

  • 配置名称: 2026-q1-tables-only
    • 数据文件: 2026-q1-tables-only/test.jsonl
    • 分割: 测试集
  • 配置名称: 2026-q1-formulas-only
    • 数据文件: 2026-q1-formulas-only/test.jsonl
    • 分割: 测试集

数据集内容与目的

  • 核心目的: 用于评估PDF解析解决方案从文档中提取数学公式表格的有效性。
  • 数据生成: 使用LaTeX合成生成具有多样化格式场景的PDF文档,并通过随机化参数(文档类别、字体、边距、列布局、行间距)来增加多样性。
  • 评估方法: 使用LLM-as-a-Judge对提取的内容进行语义评分。该方法在符合人类判断方面显著优于传统指标

数据集具体构成

  • 2026-q1-tables-only: 包含100个PDF文件,涵盖451个表格(简单、中等、复杂)。
  • 2026-q1-formulas-only: 包含100个PDF文件,涵盖1413个行内公式和657个显示模式数学公式。
  • 真实值来源: 由于PDF由LaTeX源代码生成,因此真实值可自动获取。

评估方法详情

  • 评分标准: 所有分数均为LLM-as-a-Judge在0-10分尺度上的评分,由Gemini 3 Flash通过OpenRouter进行评判。
  • 验证依据: 基于两项人工标注研究验证了LLM评判相较于基于规则指标的优越性:
    • 公式指标研究: 750个人工评分显示,文本指标r = 0.01,CDM r = 0.31,LLM评判r = 0.74–0.82。
    • 表格指标研究: 1500多个人工评分显示,基于规则的指标(TEDS, GriTS)最高为r = 0.70,LLM评判r = 0.94。

使用方式

引用信息

bibtex @misc{horn2025formulabench, title = {Benchmarking Document Parsers on Mathematical Formula Extraction from PDFs}, author = {Horn, Pius and Keuper, Janis}, year = {2025}, eprint = {2511.10390}, archivePrefix = {arXiv}, primaryClass = {cs.CV}, url = {https://arxiv.org/abs/2512.09874} }

@misc{horn2026tablebench, title = {Benchmarking PDF Parsers on Table Extraction with LLM-based Semantic Evaluation}, author = {Horn, Pius and Keuper, Janis}, year = {2026}, eprint = {2603.18652}, archivePrefix = {arXiv}, primaryClass = {cs.CV}, url = {https://arxiv.org/abs/2603.18652} }

致谢

本工作由德国联邦研究、技术和空间部(BMFTR)在“与企业的应用科技大学合作研究(FH-Kooperativ)”计划中,通过联合项目LLMpraxis(资助号13FH622KX2)支持。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作