ExtractBench

Name: ExtractBench
Creator: Contextual AI
Published: 2026-02-13 02:31:37
License: 暂无描述

arXiv2026-02-13 更新2026-02-15 收录

下载链接：

https://github.com/ContextualAI/extract-bench

下载链接

链接失效反馈

官方服务：

资源简介：

ExtractBench是由Contextual AI团队构建的开源基准测试数据集，旨在评估PDF到JSON的结构化信息提取性能。该数据集包含35份PDF文档及其对应的JSON Schema和人工标注的黄金标准，覆盖5个高价值领域，共计12,867个可评估字段，涉及从数十到数百个字段的复杂模式。数据来源于经济领域的实际文档（如SEC财务报告、信贷协议等），通过67.9小时专家标注确保质量。数据集通过设计不同模式复杂度（广度、深度、数组结构）来系统揭示大语言模型在长文档、深嵌套和大规模模式下的失效模式，主要应用于文档理解、企业级信息抽取和结构化输出生成等场景，解决现有基准在模式广度和细粒度评估方法上的不足。

提供机构：

Contextual AI

创建时间：

2026-02-13

原始信息汇总

Extract Bench 数据集概述

数据集基本信息

数据集名称：Extract Bench
核心用途：用于评估从PDF文档进行结构化信息提取的基准测试。
数据集地址：https://github.com/ContextualAI/extract-bench

数据集构成

规模：包含35个经过人工验证的PDF到JSON提取任务。
覆盖范围：涵盖5种数据模式和4个专业领域。
领域分布：
- 金融
- 学术
- 招聘
- 体育

数据结构与内容

数据格式：每个任务包含PDF文档和对应的人工验证的黄金标准JSON。
组织方式：按领域和模式组织，目录结构为 {domain}/{schema}/。
模式定义：每个任务包含一个JSON Schema文件，其中每个字段可配置评估方式。

评估套件

评估方式：一个Python包，用于将预测的JSON与黄金标准JSON进行对比评分。
评分维度：提供基于每个字段的多种评估指标。
主要指标类型：
- 精确匹配
- 模糊匹配
- 基于语义/LLM的匹配
- 数值容差匹配

输出与报告

报告格式：支持JSON、文本摘要、CSV和Markdown表格。
关键指标：
- 整体通过率
- 整体平均分数
- 已评估字段总数
- 通过和失败的字段数量
详细输出：包含每个字段的路径、使用的指标、分数、通过状态、黄金值、提取值以及推理过程。

搜集汇总

数据集介绍

构建方式

在文档理解与结构化信息抽取领域，ExtractBench的构建遵循了诊断性基准的设计理念，强调质量优先于数量。该数据集通过精心挑选五个高价值领域（包括SEC 10-K/Q财务报告、信贷协议、研究论文、专业简历和体育赛事结果），覆盖了从数十到数百个字段的广泛模式复杂度。每个领域均对应一组（PDF文档、JSON模式、人工标注的金标准JSON）三元组，总计35份文档、2076页内容与12,867个可评估字段。构建过程中，专家团队投入了67.9小时进行高质量人工标注，确保金标准在复杂嵌套结构下的准确性与模式一致性，从而系统化地揭示了前沿模型在面临模式广度、输出体量、文档长度和嵌套深度等正交维度挑战时的失效模式。

使用方法

使用ExtractBench进行评估时，研究者需将PDF文档与目标JSON模式输入至大型语言模型，要求模型生成符合模式的结构化输出。评估过程依托数据集提供的开源框架，该框架基于抽象语法树的双重遍历机制，将模式中的评估配置（如字段级度量标准）与预测输出、金标准进行递归比对。对于数组类型的字段，框架采用基于LLM的语义对齐方法，处理重排、遗漏与冗余项等复杂情况；同时明确区分缺失、空值与存在值三种状态，以精确识别遗漏与幻觉错误。用户可通过扩展插件集成自定义度量标准，或调整容差参数以适应特定领域需求，从而在统一、可复现的方法论下系统衡量模型在复杂结构化抽取任务上的可靠性与准确性。

背景与挑战

背景概述

在文档智能与自然语言处理领域，从非结构化文档中提取结构化信息是一项核心且具有挑战性的任务。ExtractBench 由 Contextual AI 的研究团队于2026年提出，旨在填补现有评估体系在复杂结构化提取方面的空白。该数据集聚焦于从PDF文档到JSON格式的端到端提取，覆盖了金融报告、信贷协议、研究论文、简历和体育赛事结果等多个高价值领域，共包含35个文档与12,867个可评估字段。其核心研究问题是评估大语言模型在处理企业级复杂模式时的可靠性与准确性，特别是在模式广度、输出体积和嵌套深度等维度上的性能表现。ExtractBench 的发布为文档理解与结构化生成社区提供了关键的诊断性基准，推动了针对大规模、细粒度提取任务的评估方法论发展。

当前挑战

ExtractBench 所应对的领域挑战在于复杂结构化提取的评估瓶颈。传统基准多专注于跨度级实体抽取或小型模式，缺乏对从PDF到大规模JSON模式（如包含数百个字段的财务报告）的端到端性能评估。具体而言，该任务要求模型不仅生成语法有效的JSON，还需确保每个字段的提取正确性，这涉及标识符的精确匹配、数值的容错比较、文本的语义等价性判断以及数组的对齐处理。在数据集构建过程中，挑战主要体现在高质量标注的获取上。由于模式复杂且文档多样，专家标注需耗费大量时间（总计67.9小时），特别是在处理包含369个字段的SEC 10-K/Q文件时，需确保标注结果既符合模式规范，又能准确反映文档内容。此外，设计能够捕捉字段依赖性语义并区分遗漏与幻觉的评估框架，本身也是一项重要的方法论挑战。

常用场景

经典使用场景

在文档智能与信息抽取领域，ExtractBench 作为一项专注于复杂结构化提取的基准测试，其经典使用场景在于系统评估前沿大语言模型从PDF文档到JSON格式的端到端信息抽取能力。该基准通过精心设计的（PDF、JSON Schema、黄金标注JSON）三元组，模拟了企业级应用中常见的合同、财务报告、学术论文等文档的处理需求，尤其擅长揭示模型在应对大规模、深度嵌套的JSON Schema时的性能瓶颈与失败模式。

解决学术问题

ExtractBench 致力于解决文档理解与结构化生成交叉领域的两个核心学术问题：一是缺乏能够全面评估企业级广度JSON Schema下PDF到JSON提取性能的端到端基准；二是缺乏能够精准捕捉嵌套提取语义的评估方法论，例如区分标识符的精确匹配、数值的容错比较以及名称的语义等价性。该数据集通过引入模式驱动的评估框架，将JSON Schema转化为可执行的规范，为每个字段声明独立的评分指标，从而为复杂结构化提取任务提供了可靠、可复现的评估基础设施，推动了该领域评估标准向精细化、语义化方向发展。

实际应用

在实际应用层面，ExtractBench 直接服务于金融科技、法律科技与学术出版等需要对海量非结构化文档进行自动化信息提取的行业。例如，在金融领域，自动化解析SEC 10-K/Q财务报告以提取数百个关键财务指标；在法律领域，从长达数百页的信贷协议中精准定位关键条款；在学术领域，批量提取研究论文中的元数据和引用信息。该基准的评估结果能够帮助企业与开发者客观衡量不同大语言模型在真实生产环境中的可靠性，为系统选型与优化提供关键决策依据。

数据集最近研究