ParseBench

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/llamaindex/ParseBench

下载链接

链接失效反馈

官方服务：

资源简介：

ParseBench 是一个用于评估文档解析系统的基准数据集，主要针对企业级真实文档。该数据集包含约2,000页经过人工验证的文档页面，涵盖保险、金融、政府等多个领域。数据集分为五个评估维度：表格（评估合并单元格和层次化表头的结构保真度）、图表（精确提取数据点及标签）、内容忠实度（检测遗漏、幻觉和阅读顺序错误）、语义格式（保留具有语义意义的文本格式）和视觉定位（追踪元素在页面中的精确位置）。数据集采用JSONL格式，包含169,011条测试规则，提供细粒度的诊断能力。每个数据文件对应不同评估维度：chart.jsonl（图表数据点验证）、table.jsonl（表格结构评估）、text_content.jsonl（内容忠实度规则）、text_formatting.jsonl（格式保留验证）和layout.jsonl（布局元素规则）。数据集还附带完整的评估框架，支持端到端流程评估和跨系统比较。

创建时间：

2026-04-09

原始信息汇总

ParseBench 数据集概述

数据集基本信息

数据集名称：ParseBench
发布方：llamaindex
许可证：Apache 2.0
语言：英语 (en)
数据规模：100K < n < 1M
主要用途：评估文档解析系统，特别是针对AI智能体工作流
标签：document-parsing, pdf, benchmark, evaluation, tables, charts, ocr, layout-detection

核心特点

多维评估：基准测试分为五个能力维度——表格、图表、内容忠实度、语义格式化和视觉定位，每个维度都有针对特定任务设计的指标。
真实企业文档：评估集包含约2000页经过人工验证的页面，来自超过1200份公开可用的文档，涵盖保险、金融、政府等领域，难度从简单到对抗性困难不等。
密集测试覆盖：五个维度共计超过169K条测试规则，提供细粒度的诊断能力，可精确定位解析器故障点。
人工验证标注：所有标注均通过两阶段流程生成：前沿视觉语言模型自动标注，随后进行针对性人工校正。
评估代码套件：基准测试附带完整的评估框架，支持端到端流水线评估、按维度评分和跨流水线比较。

数据集构成与规模

维度	评估指标	页面数	文档数	规则数
表格	GTRM (GriTS + TableRecordMatch)	503	284	(连续指标)
图表	ChartDataPointMatch	568	99	4,864
内容忠实度	Content Faithfulness Score	506	506	141,322
语义格式化	Semantic Formatting Score	476	476	5,997
布局 (视觉定位)	Element Pass Rate	500	321	16,325
总计 (去重)		2,078	1,211	169,011

注：内容忠实度和语义格式化共享相同的507个底层文本文档，但使用不同的规则集进行评估。总计数字反映了去重后的页面和文档数量。表格维度使用连续指标（无离散规则）。

数据文件

数据集采用JSONL格式，每个文件对应一个评估维度：

chart.jsonl：包含4,864条图表数据点抽查规则，覆盖568页。
table.jsonl：包含503个用于结构评估的真实HTML表格。
text_content.jsonl：包含141,322条内容忠实度规则（遗漏、幻觉、阅读顺序），覆盖506页。
text_formatting.jsonl：包含5,997条格式保留规则，覆盖476页。
layout.jsonl：包含16,325条布局元素和阅读顺序规则，覆盖500页。
docs/ 目录：包含源文档（PDF、JPG、PNG），按类别组织。

数据记录格式

每条记录为JSONL格式的一行，包含以下字段：

pdf：源文档的相对路径（PDF、JPG或PNG）。
category：评估类别。
id：测试规则的唯一标识符。
type：规则类型（因类别而异）。
rule：JSON编码的规则负载，包含评估参数。
page：页码（从1开始），布局规则使用。
expected_markdown：真实HTML/Markdown内容，表格规则使用。
tags：文档级标签列表，用于过滤和分组。

评估维度与规则类型详情

1. 图表

规则类型：chart_data_point
描述：指定一个预期数值和一个或多个标签（系列名称、x轴类别）。如果该值及其所有关联标签能在解析器的表格输出中找到，则数据点验证通过。评估对表格方向不敏感，并容忍数字格式差异。

2. 表格

规则类型：expected_markdown
描述：提供真实HTML表格。评估使用TableRecordMatch指标，将表格视为记录的集合，匹配真实记录与预测记录，并按单元格级别的二元一致性进行评分。

3. 内容忠实度

规则类型：包括 missing_word_percent、unexpected_word_percent、too_many_word_occurence_percent、missing_sentence_percent、unexpected_sentence_percent、too_many_sentence_occurence_percent、bag_of_digit_percent、order、missing_specific_word、missing_specific_sentence、is_footer、is_header。
描述：衡量解析器是否忠实地再现文本内容，检测遗漏、幻觉和阅读顺序违规。

4. 语义格式化

规则类型：包括 is_bold、is_italic、is_underline、is_strikeout、is_mark、is_sup、is_sub、is_title、title_hierarchy_percent、is_latex、is_code_block。
描述：验证具有语义意义的格式是否被保留，例如粗体、删除线、上标/下标、标题、LaTeX和代码块。

5. 布局 (视觉定位)

规则类型：layout、order
描述：评估视觉定位，包括边界框（归一化坐标）、语义类别（文本、表格、图片、页眉、页脚）、内容关联和阅读顺序索引。

文档类别详情

图表文档 (568页)

来源：公司报告、财务文件和政府出版物中的条形图、折线图、饼图和复合图表。
多样性：包含有无明确数值标签、离散和连续序列、不同数据密度以及单图表与多图表页面的图表。

表格文档 (503页)

主要来源：保险文件（SERFF）、公共财务文件和政府报告。
特点：表格保留在其原始PDF页面中，包含合并单元格、分层表头、跨行和多页表格。

文本文档 (508页，内容忠实度与语义格式化共享)

结构：每份文档一页，按标签分类：
- simple：带有一些样式的简单文本 (170份)
- ocr：扫描/图像文档，质量各异 (119份)
- multicolumns：1-8列，不同布局 (97份)
- multilang：20多种语言，涵盖所有主要文字体系 (47份)
- misc：不寻常的内容/布局/阅读顺序 (33份)
- dense：密集、大型文档（如报纸）(14份)
- sparse：稀疏文本内容，每页文本极少 (14份)
- handwritting：大量手写文本 (13份)

布局文档 (500页)

内容：单栏、多栏和复杂布局，包含混合媒体（文本、图像、表格、图表）。
输入格式：PDF、JPG和PNG。
评估标签集：文本、表格、图片、页眉、页脚。

引用

bibtex @misc{zhang2026parsebench, title={ParseBench: A Document Parsing Benchmark for AI Agents}, author={Boyang Zhang and Sebastián G. Acosta and Preston Carlson and Sacha Bron and Pierre-Loïc Doulcet and Daniel B. Ospina and Simon Suo}, year={2026}, eprint={2604.08538}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2604.08538}, }

搜集汇总

数据集介绍

构建方式

在文档解析领域，构建高质量基准数据集对评估智能代理的性能至关重要。ParseBench的构建过程采用了严谨的双阶段标注流程，首先利用前沿视觉语言模型进行自动化标注，随后针对关键环节引入人工校正，确保了标注的精确性与可靠性。数据集从保险、金融、政府等领域的公开企业文档中精选了约2000页经过人工验证的页面，覆盖了表格、图表、文本内容、语义格式和视觉布局五个核心维度，并植入了超过16.9万条细粒度测试规则，为解析系统的多维能力评估提供了扎实的数据基础。

特点

ParseBench的显著特征在于其多维度的评估体系与密集的测试覆盖。该基准将文档解析任务系统性地划分为表格结构、图表数据点、内容忠实度、语义格式保留及视觉定位五个能力维度，每个维度均设计了针对性的评估指标，旨在精准捕捉实际工作流中的关键失效模式。数据集囊括了从简单到对抗性困难的多样化真实企业文档，并提供了海量的细粒度测试规则，使得评估不仅能够反映整体性能，更能深入诊断解析器在具体环节的薄弱之处。

使用方法

为有效利用ParseBench进行评估，研究者可借助其配套的完整评估框架。该框架支持端到端的解析流水线评估、分维度评分以及跨系统比较。用户需将待评估解析器的输出结果与数据集中提供的规则进行比对，例如，对于表格维度使用GTRM指标衡量结构保真度，对于图表维度通过ChartDataPointMatch验证数据点提取的准确性。数据集以JSONL格式组织，每条记录对应一项测试规则，清晰定义了源文档路径、规则类型、期望结果等字段，便于集成与自动化测试。

背景与挑战

背景概述

ParseBench 是由 Boyang Zhang、Sebastián G. Acosta 等研究人员于 2026 年提出的一个面向 AI 代理的文档解析基准。该数据集由 llamaindex 机构发布，旨在应对企业级文档解析中存在的复杂挑战。其核心研究问题聚焦于评估文档解析系统在真实业务场景下的多维度性能，涵盖表格结构还原、图表数据提取、内容忠实度、语义格式保留以及视觉定位等关键能力。ParseBench 从保险、金融、政府等领域的公开文档中精选了约 2,000 页经过人工验证的样本，并构建了超过 16.9 万条测试规则，为文档智能领域提供了细粒度、可诊断的评估框架，对推动基于 AI 代理的自动化工作流程发展具有显著影响力。

当前挑战

ParseBench 致力于解决文档解析领域长期存在的核心挑战，即如何准确、可靠地从非结构化的企业文档中提取结构化信息，以支撑 AI 代理的决策流程。具体挑战包括：在表格解析中，合并单元格与分层表头的结构保真度问题，细微错误即可导致金融分析数据错位；在图表解析中，需从柱状图、折线图等视觉元素中精确提取数值数据点及其标签；在内容忠实度方面，需克服文本遗漏、幻觉生成及阅读顺序错乱等难题；语义格式的保留则要求准确识别并保留粗体、删除线、上下标等承载关键语义的排版信息；视觉定位挑战在于将每个提取元素精确关联至其在页面上的原始空间位置，以满足审计等受监管流程的可追溯性要求。在数据集构建过程中，挑战主要源于真实企业文档的多样性与复杂性，包括扫描文档的光学字符识别质量不一、多栏布局、多语言文本混合以及手写内容干扰，这要求标注流程采用前沿视觉语言模型自动标注与针对性人工修正相结合的双阶段管道以确保标注质量。

常用场景

经典使用场景

在文档智能领域，ParseBench作为评估基准，其经典使用场景聚焦于系统性地评测文档解析系统在真实企业文档上的多维度性能。该数据集通过分层设计，覆盖表格结构还原、图表数据点提取、内容忠实度、语义格式保留及视觉定位五大能力维度，为研究者提供了细粒度的诊断工具。基于其包含的约2000页经过人工验证的文档和超过16.9万条测试规则，研究人员能够精确评估解析模型在复杂布局、多语言文本及混合媒体文档中的鲁棒性，从而推动文档理解技术向更高精度与可靠性发展。

解决学术问题

ParseBench致力于解决文档解析研究中长期存在的关键学术问题，即如何系统评估AI代理在复杂、非结构化企业文档上的实际解析能力。传统评估往往局限于单一指标或简化文档，而该数据集通过引入多维度的细粒度规则，有效量化了模型在表格结构保持、图表数值提取、内容缺失与幻觉、语义格式保留以及元素视觉溯源等方面的性能短板。其意义在于为学术界提供了一个标准化、可复现的评估框架，促进了文档解析模型在真实场景下的性能比较与迭代优化，对提升AI代理工作流的可靠性与可审计性具有深远影响。

衍生相关工作

围绕ParseBench数据集，已衍生出一系列专注于提升文档解析性能的经典研究工作。这些工作通常利用该数据集的多维度评估结果，针对特定薄弱环节进行模型改进，例如开发更强大的表格结构识别网络以应对合并单元格与分层表头，或设计新型视觉-语言模型以提升对图表数据点的提取精度。同时，该基准也催生了面向语义格式保留的序列标注方法，以及增强视觉定位能力的端到端训练框架。这些衍生研究共同推动了文档智能领域从通用文本提取向结构化、语义化理解的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集