five

synthetic-table-bench

收藏
Hugging Face2026-04-09 更新2026-04-10 收录
下载链接:
https://huggingface.co/datasets/roma2025/synthetic-table-bench
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于评估OCR和视觉语言模型(VLM)在表格文档解析性能上的合成表格基准数据集,包含206个程序生成的PDF文档及其确定性的Markdown格式真实标签。数据集分为三大类别:边缘案例表格(43个样本,用于压力测试场景)、财务布局变体(35个样本,模拟真实财务报表布局)和文档合成(128个样本,覆盖20种文档类别和6个行业,包含旋转、噪声和多页面表格等复杂情况)。数据集的特点包括确定性真实标签、可控的复杂性、可重复的基准测试以及会计一致性。数据集结构分为三个子集:layout、financial和doc,分别对应不同的测试场景。此外,数据集还提供了详细的元数据,包括文档类别、行业、旋转角度、噪声样式和难度等级。该数据集适用于图像到文本、表格问答等任务,特别适合用于文档AI、发票、审计和多页面文档处理的研究和评估。
创建时间:
2026-03-31
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: Synthetic Table Benchmark for PDF-to-Markdown Evaluation
  • 发布者: Nace AI
  • 发布日期: 2025年
  • 许可协议: CC-BY-4.0
  • 语言: 英语 (en)
  • 数据规模: 小于1K样本 (n<1K)

任务类别与标签

  • 任务类别: 图像到文本 (image-to-text)、表格问答 (table-question-answering)
  • 标签: ocr、table-recognition、pdf-to-markdown、synthetic-data、financial-tables、document-ai、benchmark、invoice、audit、multi-page

数据集构成

数据集包含 206个程序生成的PDF文档,并带有确定性的真实Markdown标注,用于评估OCR和视觉语言模型在表格文档解析上的性能。

数据子集与配置

数据集提供三个配置(子集),均位于test划分下:

  1. layout (默认配置): 43个样本,专注于表格布局的压力测试。
  2. financial: 35个样本,包含现实的财务报表布局。
  3. doc: 128个样本,包含跨文档类别和行业的完整文档合成。

样本类别与数量

类别 样本数量 描述
Edge-case tables 43 压力测试场景:空单元格、合并表头、无边框布局、宽/长/密集表格、多级表头、稀疏数据、特殊数字格式。
Financial layout variants 35 现实的财务报表布局:多级表头、合并单元格、混合货币、行业特定格式、不同复杂度级别。
Document synthesis 128 跨20个文档类别和6个行业的完整文档式财务/审计证据,包含40个旋转样本(10-90度)、14种调色板、6种噪声预设、多页表格、徽标、印章、扫描模拟以及符合会计原则的语义。

数据集结构

数据存储在data/test/目录下,每个子集(layout, financial, doc)包含相同的结构:

  • pdfs/: PDF文件。
  • ground_truth/: 对应的Markdown标注文件(管道表格格式)。
  • metadata.csv: 元数据文件。

文档合成子集 (doc) 详情

128个样本覆盖3个领域、20个文档家族、6个行业,并包含旋转和多因素噪声。

关键特性:

  • 任意旋转: 40个样本旋转10-90度。
  • 行业特定内容: 银行业、制造业、保险业、零售业、科技业等。
  • 发票行业: 科技、建筑、医疗、制造、酒店业,各有现实的行项目。
  • 14种调色板: 现代企业、传统ERP、品牌发票、青色、红色、绿色、紫色、黄色、高对比度、柔和、暖色大地、衬线正式、紧凑、朴素办公。
  • 6种噪声预设: 干净数字版、干净扫描版、噪声扫描版、复印版、手机拍摄版、严重退化版。
  • 多因素噪声: 70多个样本结合2-5种噪声因素。
  • 多页表格: 表格跨2-3页,带有重复表头。
  • 强制会计语义: 资产 = 负债 + 权益、发票数学、借方 = 贷方、运行余额。
  • 按类别评估: 支持通过doc_classindustryrotation_degrees等字段进行逐类分析。

难度分布:

  • 中等: 99个样本,标准文档,内容多样,带有一些噪声。
  • 困难: 8个样本,多页表格、密集布局、扩展的会计科目表。
  • 对抗性: 21个样本,最大程度退化 + 旋转 + 非标准颜色。

评估指标

使用6种指标评估了13个OCR/VLM模型:

  1. 网格形状匹配: 模型是否检测到正确的行数和列数。
  2. 单元格精确匹配: 逐字符的单元格比较。
  3. 层次对齐: 序列对齐的行/单元格比较(容忍插入/删除)。
  4. 数值准确性: 财务数字精度(1%容差)。
  5. TEDS: 结构树比较。
  6. Markdown TEDS: 针对Markdown管道表格的专用TEDS,带有部分信用。

已评估模型

  • Datalab Marker
  • Chandra OCR 2
  • Qwen 2.5 VL (多个版本)
  • NaceOCR
  • GLM OCR
  • Nemotron-Parse 1.1
  • LlamaParse

使用方式

可通过Hugging Face datasets库加载特定子集,或使用pandas读取本地元数据文件。

引用格式

@dataset{nace_synthetic_table_bench_2025, title={Synthetic Table Benchmark for PDF-to-Markdown Evaluation}, author={Nace AI}, year={2025}, url={https://huggingface.co/datasets/roma2025/synthetic-table-bench} }

搜集汇总
数据集介绍
main_image_url
构建方式
在文档智能领域,评估模型对表格结构的解析能力需要精确且多样化的基准数据。Synthetic Table Benchmark数据集通过程序化生成的方式构建,涵盖了206份合成PDF文档,并附带确定性的Markdown格式真值标签。其构建过程系统性地设计了三大类别:布局边缘案例、财务布局变体以及文档合成样本,每一类别均针对特定的解析挑战进行精心设计,例如空单元格、多级表头、无边框布局、多页表格以及旋转与噪声干扰等复杂场景。这种程序化生成方法确保了真值标签的绝对准确性,避免了人工标注可能引入的误差,为模型性能评估提供了可靠且可复现的基础。
特点
该数据集的核心特点在于其合成数据的全面性与挑战性设计。它不仅包含了从简单到极端的表格布局变体,如超宽、超长或稀疏表格,还模拟了真实的财务文档环境,覆盖了多个行业与文档类型,并强制执行了会计语义一致性。尤为突出的是,文档合成子集引入了任意的旋转角度、多种色彩主题、多因子噪声组合以及多页表格延续等复杂因素,旨在全面测试模型在接近真实世界噪声和变形下的鲁棒性。这种多层次、多因素的挑战设计,使得该数据集能够细致评估模型在表格结构识别、内容提取及语义理解等多个维度的性能。
使用方法
为便于研究社区使用,该数据集已集成于Hugging Face平台,并提供了清晰的加载接口。用户可通过`datasets`库分别加载`layout`、`financial`和`doc`三个配置下的测试集。每个样本均包含PDF文件及其对应的Markdown真值文件,并辅以详细的元数据CSV文件,其中记录了文档类别、行业、旋转角度、噪声等级和难度等信息。研究者可以便捷地访问特定样本,将其输入至OCR或视觉语言模型进行推理,并利用数据集建议的六项评估指标,如网格形状匹配、单元格精确匹配和树编辑距离相似性等,对模型的PDF到Markdown转换性能进行系统且量化的评测。
背景与挑战
背景概述
在文档智能与表格识别领域,准确解析PDF文档中的表格内容是一项核心任务,尤其在金融、审计等对数据精确性要求极高的行业。Synthetic Table Benchmark数据集由Nace AI于2025年创建,旨在为PDF到Markdown的转换评估提供一个标准化基准。该数据集通过程序化生成206份合成PDF文档,涵盖布局边缘案例、金融报表变体及全文档合成三大类别,其设计聚焦于解决表格结构识别、光学字符识别(OCR)以及视觉语言模型在复杂文档解析中的性能评测问题。该基准的推出,为相关模型提供了可控、可复现的评估环境,显著推动了文档AI领域在表格提取精度与鲁棒性方面的研究进展。
当前挑战
该数据集致力于应对表格文档解析中的多重挑战:在领域问题层面,它针对PDF表格识别中常见的结构复杂性(如合并单元格、多级表头、无边框布局)、内容多样性(如特殊数字格式、稀疏数据)以及现实场景干扰(如文档旋转、噪声退化、多页面表格)进行系统化评测。在构建过程中,挑战主要体现在如何通过合成数据生成技术,在确保会计语义一致性(如资产等于负债加权益)的同时,精确模拟各类边缘案例与行业特定格式,并实现程序化生成与确定性真实标注的无误差对齐,从而为模型评估提供既全面又可靠的基准。
常用场景
经典使用场景
在文档智能与表格识别领域,Synthetic Table Benchmark数据集为评估光学字符识别(OCR)和视觉语言模型(VLM)在复杂表格解析任务中的性能提供了标准化测试平台。该数据集通过程序化生成包含边界案例、金融布局变体和完整文档合成的PDF文件,并配备精确的Markdown格式真值,使得研究人员能够系统性地测试模型在应对空单元格、合并表头、无边框布局、多级标题及旋转噪声等多种挑战时的鲁棒性与准确性。
实际应用
在实际应用中,Synthetic Table Benchmark数据集能够直接支持金融、审计与会计行业的自动化文档处理流程。例如,在发票自动录入、银行对账单解析、资产负债表提取等场景中,基于该数据集训练的模型可以高效处理多页面表格、混合货币格式及行业特定布局,显著提升数据提取的准确性与效率。同时,其合成的旋转与噪声样本也模拟了真实扫描文档的退化情况,有助于开发在移动拍摄或老旧档案数字化等复杂环境下仍保持稳健性能的实用系统。
衍生相关工作
围绕该数据集,已衍生出一系列经典的模型评估与比较研究。例如,Datalab Marker、Qwen 2.5 VL、Nemotron-Parse 1.1等13种OCR与VLM模型均在其上进行了系统性能评测,涵盖了网格形状匹配、单元格精确匹配、树编辑距离相似性等多种指标。这些工作不仅揭示了当前先进模型在表格结构识别与内容提取方面的优势与局限,也为后续研究提供了重要的性能基线,激励着更高效、更鲁棒的文档解析算法的创新与发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作