PulseBench-Tab
收藏github2026-04-23 更新2026-04-28 收录
下载链接:
https://github.com/Pulse-Software-Corp/PulseBench-Tab
下载链接
链接失效反馈官方服务:
资源简介:
PulseBench-Tab是一个前沿的多语言基准数据集,用于评估文档解析系统在表格结构(行、列、跨度)和内容(单元格文本)上的准确性。该数据集包含9种语言的1,820个人工标注的表格,并使用基于图的新型评估指标T-LAG进行评分。
PulseBench-Tab is a cutting-edge multilingual benchmark dataset designed to evaluate the accuracy of document parsing systems with respect to both table structures (including rows, columns, and spans) and cell content (text within table cells). This dataset contains 1,820 manually annotated tables spanning 9 languages, and uses the novel graph-based evaluation metric T-LAG to score system performance.
创建时间:
2026-04-03
原始信息汇总
数据集概述:PulseBench-Tab
PulseBench-Tab 是一个前沿的多语言表格提取基准数据集,用于评估文档解析系统从文档图像中还原表格结构(行、列、跨单元格)和内容(单元格文本)的准确度。
核心信息
- 数据规模:包含 1,820 个人工标注的表格,覆盖 9 种语言。
- 评估指标:使用 T-LAG(Table Logical Adjacency Graph,表格逻辑邻接图),一种基于图的评价指标。
- 数据集发布平台:HuggingFace Datasets
- 研究论文:arXiv 论文链接
- 博客文章:博客链接
T-LAG 评分方法
T-LAG 将表格建模为二维有向图,在一个统一的分数中同时评估结构准确性和内容准确性。其计算流程如下:
- 解析 HTML 为网格矩阵:将真实标签和预测的 HTML 表格解析为单元格位置网格矩阵,保留
rowspan和colspan属性。 - 提取有向边:为相邻网格位置上的不同单元格创建有向边(右向边和下方边),并对边进行去重。
- 通过 $Psi$ 函数计算边权重:使用编辑距离(Levenshtein distance)并经过指数 $k=7$ 调整,计算真实边和预测边之间的相似度权重,并对空值(如空字符串、
-、N/A等)进行特殊处理。 - 匈牙利算法匹配:使用匈牙利算法对真实边集合和预测边集合进行最优一对一分派,仅匹配方向相同的边。
- 计算最终分数:根据匹配的总权重计算精确率、召回率和 T-LAG 分数(F1 值)。对于单单元格表格(无边),直接使用 $Psi$ 函数比较单元格文本。
关键设计属性
| 属性 | 描述 |
|---|---|
| 纯 F1 | 无单独的结构惩罚,结构通过未匹配的边来捕获 |
| 无边数量上限 | 无论表格大小,对所有边进行评分 |
| 方向约束 | 仅对相同方向(右向或下方)的边进行匹配 |
| 跨单元格去重 | 防止大合并单元格主导分数 |
| 大小写敏感 | 精确文本比较,无数字标准化 |
已评测服务提供商
该数据集在 1,820 个样本上评估了 9 个服务提供商,涵盖文档 AI 厂商、基础模型和开源工具。以下为排名和 T-LAG 分数:
| 排名 | 提供商 | T-LAG 分数 | 覆盖率 |
|---|---|---|---|
| 1 | Pulse Ultra 2 | 0.9347 | 100.0% |
| 2 | Gemini 3.1 | 0.8155 | 99.5% |
| 3 | LlamaParse (Agentic) | 0.7977 | 94.0% |
| 4 | Reducto (Agentic) | 0.7953 | 78.8% |
| 5 | Extend | 0.7626 | 91.9% |
| 6 | Azure Document Intelligence | 0.7614 | 92.0% |
| 7 | Reducto | 0.7175 | 80.4% |
| 8 | AWS Textract | 0.6034 | 98.5% |
| 9 | Unstructured | 0.3603 | 100.0% |
评分模式:忽略缺失样本(exclude-missing),仅对服务提供商产生了输出结果的样本进行评分。
使用方式
1. 评分自己的预测结果
-
安装依赖:
pip install -r requirements.txt -
运行评分脚本: bash python tlag_scorer.py --gt path/to/ground_truth/ --pred path/to/predictions/ --output scores.json
--gt和--pred目录需包含以{sample_id}.html命名的 HTML 文件。
2. 使用 PulseBench-Tab 进行评分
- 使用 HuggingFace Datasets 下载真实标签数据并保存为 HTML 文件。
- 运行模型并将预测结果保存为 HTML 文件。
- 执行上述评分脚本。
3. 作为库使用
- 在克隆的仓库目录下,通过 Python 导入并使用
score_single函数直接评分两个 HTML 字符串。 python from tlag_scorer import score_single result = score_single(gt_html, pred_html)
许可证
本项目采用 CC BY-NC-ND 4.0 许可证。
搜集汇总
数据集介绍

构建方式
PulseBench-Tab是一个前沿的多语言表格提取基准数据集,专门用于评估文档解析系统从图像中还原表格结构与内容的能力。该数据集通过人工标注的方式构建,收录了涵盖9种语言的1,820个表格样本。每个样本均包含原始文档图像对应的标准HTML格式的表格结构,其中详细记录了行、列、合并单元格(rowspan与colspan)等关键属性,确保标注的精确性和全面性。
特点
该数据集的最显著特点在于其采用的T-LAG(表格逻辑邻接图)评估指标。T-LAG将表格建模为有向图,通过提取相邻单元格间的水平与垂直边关系,并利用基于Levenshtein距离的文本相似度核函数Ψ计算边的权重,再经匈牙利算法进行全局最优匹配,最终计算精确率、召回率与F1分数。该指标统一了结构与内容的评价标准,且支持跨语言与跨规模的鲁棒比较。
使用方法
使用者可通过Python的datasets库从HuggingFace下载PulseBench-Tab的标注数据,并将其保存为本地的HTML文件。随后运行项目提供的tlag_scorer.py脚本,输入真实标注目录与模型预测目录,即可获得每个样本的T-LAG分数。该评分工具同时支持作为Python库调用,允许开发者直接在代码中调用score_single函数对单个表格样本进行评价,并输出精确率、召回率与综合得分。
背景与挑战
背景概述
文档图像中的表格提取是文档智能领域的核心难题,其应用横跨金融报告分析、学术文献数据挖掘与商业文档自动化处理等诸多场景。PulseBench-Tab由Pulse AI团队于近期创建,是一项面向多语言表格提取的前沿基准测试系统。该数据集包含1820张经人工精细标注的表格,覆盖9种语言,其核心研究问题在于如何精确复原文档图像中表格的结构(行、列、合并单元格)与文本内容。PulseBench-Tab引入了一种基于图论的新型评价指标T-LAG(表格逻辑邻接图),将结构与内容保真度统一量化,为文档解析系统的性能评估提供了更严谨的标尺。该基准评测了9种业界领先的文档AI服务、大模型及开源工具,包括Pulse Ultra 2、Gemini 3.1、LlamaParse等,揭示了当前技术在表格提取任务上的显著性能差异,对推动文档解析技术的标准化评估与进步具有重要影响力。
当前挑战
PulseBench-Tab所应对的领域挑战在于,现有表格提取系统普遍难以同时精准捕捉复杂表格的二维空间结构(如跨行跨列合并)与单元格中的细微文本差异,尤其在多语言场景下,非拉丁字符的变体与空值标记的处理更易引入误差。构建该数据集的过程中亦面临诸多挑战:首先,获取覆盖9种语言且具有足够结构多样性的真实文档图像实属不易,需确保样本能代表金融、学术、商业等典型领域;其次,人工标注需同时标注单元格坐标、文本内容及合并属性,要求标注者具备极高的细致度与跨语言能力,以保证标注一致性;最后,设计T-LAG评价指标时,如何在数学上严谨地权衡结构匹配与文本相似度,并设计出能有效处理空值、合并单元格及编辑距离的非线性核函数,以避免常见指标对近似输出过于宽容的问题,构成了核心方法论难题。
常用场景
经典使用场景
在文档智能解析领域,PulseBench-Tab被广泛用作评估多语言表格结构还原与内容提取能力的基准测试平台。研究者利用该数据集对各类文档解析系统进行标准化测评,通过其包含的9种语言、1820个经人工标注的表格样本,全面检验系统在处理跨语种、多布局表格时的结构还原精度与文本识别准确性。表格逻辑邻接图(T-LAG)评分体系将表格建模为二维有向图,统一衡量结构与内容保真度,为模型性能比较提供了严苛而公平的参照标准。
实际应用
在实际工业应用中,PulseBench-Tab直接服务于金融年报分析、合同条款比对、学术文献元数据抽取等需要从扫描文档或PDF中精确还原表格信息的场景。企业可利用该基准筛选和优化文档解析服务(如Azure Document Intelligence、AWS Textract),提升税务报表、进出口单据、医疗处方等结构化数据的自动化录入精度。此外,多语言支持使其天然适配跨国企业的全球化文档处理需求,如保险理赔单、海关申报表的批量解析,显著降低人工校对成本并加速业务流程自动化。
衍生相关工作
围绕PulseBench-Tab已衍生出多项经典工作,包括以其为评测平台推动的表格解析模型架构创新,例如融合视觉-语言预训练与图神经网络的端到端表格重建方法。T-LAG评分算法本身亦被后续研究采纳或扩展,用于构建更复杂的表格相似性评估指标。该数据集还催生了针对低资源语言表格提取的领域适配研究,以及结合大语言模型进行跨模态表格理解与异常检测的探索,成为文档智能领域技术迭代的重要催化剂。
以上内容由遇见数据集搜集并总结生成



