VAREX-Bench

github2026-03-29 更新2026-04-04 收录

下载链接：

https://github.com/udibarzi/varex-bench

下载链接

链接失效反馈

官方服务：

资源简介：

VAREX-Bench是一个用于评估语言模型从文档图像、空间文本和纯文本中提取结构化JSON能力的基准数据集。它包含1,777个美国政府表格，1,771个独特的每文档模式，以及21,084个可评分字段，评估了20个模型和4种输入模式。

VAREX-Bench is a benchmark dataset for evaluating the capability of language models to extract structured JSON from document images, spatial text, and plain text. It includes 1,777 U.S. government tables, 1,771 unique per-document schemas, and 21,084 scorable fields, supporting evaluation of 20 models across four input modalities.

创建时间：

2026-03-13

原始信息汇总

VAREX-Bench 数据集概述

数据集简介

VAREX-Bench 是一个用于评估语言模型从文档图像、空间文本和纯文本中提取结构化JSON能力的基准。该数据集包含1,777份美国政府表格，涵盖1,771个独特的每文档模式，并包含21,084个可评分字段。评估覆盖了20个模型和4种输入模态。

核心特性

数据规模：1,777份文档。
模式多样性：1,771个独特的每文档模式。
评估字段：21,084个可评分字段。
评估范围：20个模型，4种输入模态（图像、空间文本、纯文本、空间+图像）。

数据内容与结构

数据集可通过Hugging Face datasets库加载，主要包含以下字段：

schema：提取目标模式（JSON字符串）。
ground_truth：真实值（JSON字符串）。
image：文档图像（PIL Image，200 DPI）。
text_layout：带布局的空间文本。

访问与使用

数据集地址：https://huggingface.co/datasets/ibm-research/VAREX
项目页面：https://udibarzi.github.io/varex-bench/
相关论文：https://arxiv.org/abs/2603.15118
许可证：Apache 2.0

评估方法

评估要求使用temperature=0和response_format={"type": "json_object"}（在支持的模型中）。系统提示必须包含指令“Return an instance of the JSON with extracted values, not the schema itself”，以防止模型回显模式结构而非提取值。预测结果需保存为{output_dir}/{mode}/{doc_id}.pred.json格式以供评分。

搜集汇总

数据集介绍

构建方式

在文档智能领域，VAREX-Bench的构建过程体现了严谨的学术规范。该数据集的核心来源于1,777份美国政府的真实表格文档，这些文档涵盖了多样化的行政与公共事务场景。构建团队为每份文档精心设计了独特的JSON模式，共计1,771种不同的模式，并在此基础上标注了21,084个可评分的结构化字段。整个流程确保了数据来源的真实性与标注的精确性，为多模态信息抽取研究提供了坚实可靠的基础。

使用方法

使用VAREX-Bench进行模型评估遵循一套标准化的流程。研究者首先通过Hugging Face平台加载数据集，获取包含图像、布局文本和模式定义的数据条目。随后，可选用提供的脚本，针对图像、空间文本等四种输入模态，调用本地或云端的大语言模型进行结构化预测。预测结果需保存为指定格式的JSON文件，最后通过专用的评分脚本，将模型输出与标注的真实值进行自动化比对，计算出精确的评估指标，从而完成对模型性能的量化分析。

背景与挑战

背景概述

随着多模态人工智能技术的迅猛发展，文档信息抽取领域面临着从非结构化或半结构化文档中高效提取结构化数据的迫切需求。VAREX-Bench由IBM研究院的研究团队于2026年创建，旨在评估语言模型从文档图像、空间文本及纯文本中抽取结构化JSON数据的能力。该数据集聚焦于美国政府部门表格，包含1,777份文档及1,771个独特模式，共计21,084个可评分字段，其核心研究问题在于探索多模态输入对复杂文档结构理解的性能边界，为文档智能领域提供了标准化评估基准，推动了自动化信息处理技术的进步。

当前挑战

VAREX-Bench致力于解决文档结构化抽取中的核心挑战，即如何准确理解并转换多样化的文档格式为统一JSON结构，这要求模型具备跨模态的语义对齐与空间推理能力。在构建过程中，数据集面临文档模式高度异构的难题，每份表格均对应独特模式，需精细标注以覆盖广泛场景；同时，多模态数据的对齐与质量保证亦构成显著挑战，确保图像、文本及布局信息的一致性对评估可靠性至关重要。这些挑战共同塑造了数据集在推动文档智能技术发展中的关键角色。

常用场景

经典使用场景

在文档智能与多模态信息抽取领域，VAREX-Bench作为一个基准测试集，其经典使用场景聚焦于评估语言模型从多样化输入中提取结构化JSON数据的能力。该数据集涵盖了图像、空间文本和纯文本三种模态，研究者通过构建统一的评估框架，系统性地测试模型在复杂文档布局下的信息定位与结构化转换性能。这一场景不仅推动了多模态理解技术的发展，还为模型在真实世界文档处理任务中的鲁棒性提供了量化标准。

解决学术问题

VAREX-Bench致力于解决文档信息抽取中的核心学术问题，特别是如何统一评估模型在异构模态输入下的结构化提取准确性。该数据集通过包含1,777份美国政府部门表格，并设计了1,771个独特文档模式，有效应对了文档布局多样性与模式动态变化的挑战。其意义在于为学术界提供了一个可复现的基准平台，促进了跨模态表示学习、模式适配与零样本抽取等前沿方向的研究，显著提升了领域内评估方法的标准化水平。

实际应用

在实际应用层面，VAREX-Bench所针对的多模态结构化抽取技术，已广泛应用于自动化文档处理系统。例如，在金融、法律与公共服务领域，系统能够从扫描表格、电子文档或混合格式文件中自动提取关键字段，并转换为结构化数据，极大提升了数据录入与管理的效率。这种技术不仅减少了人工干预的成本，还增强了信息处理的准确性与一致性，为数字化转型提供了可靠的技术支撑。

数据集最近研究