OfficeQA Pro

Name: OfficeQA Pro
Creator: Databricks·人工智能研究院
Published: 2026-03-10 01:34:53
License: 暂无描述

arXiv2026-03-10 更新2026-03-11 收录

下载链接：

https://github.com/databricks/officeqa

下载链接

链接失效反馈

官方服务：

资源简介：

OfficeQA Pro是由Databricks人工智能研究院构建的企业级基准测试数据集，基于近百年美国财政部公报构建，包含89,000页文档和2600万数值数据。数据集包含133个需跨文档解析与数值推理的问题，涵盖表格解析、时序分析等复杂任务。通过专业标注团队与AI验证流程构建，旨在评估AI模型在真实企业环境中的多模态推理能力，尤其关注金融数据分析场景下的检索与计算精度。

提供机构：

Databricks·人工智能研究院

创建时间：

2026-03-10

原始信息汇总

OfficeQA数据集概述

数据集基本信息

数据集名称：OfficeQA
发布机构：Databricks
核心目标：评估模型/智能体在端到端基于文档的推理任务上的性能
许可协议：数据集发布遵循CC-BY-SA 4.0许可；代码和脚本遵循Apache 2.0 License
技术报告：https://arxiv.org/abs/2603.08655

基准子集

OfficeQA Pro
- 用途：评估前沿模型的默认基准
- 问题数量：133个
OfficeQA Full
- 用途：包含额外更简单问题的版本，用于系统逐步改进
- 问题数量：246个

数据内容与要求

问题来源：所有问题均需基于 U.S Treasury Bulletin 文档进行回答
文档范围：使用1939年至2025年的历史美国财政部公报PDF文件，包含密集的财务表格、图表和文本数据

数据集文件结构

officeqa_pro.csv - OfficeQA Pro基准数据集
officeqa_full.csv - OfficeQA Full基准数据集
reward.py - 用于评估模型输出的评分脚本
treasury_bulletin_pdfs/ - 原始PDF源文档（696个文件，约20GB）
treasury_bulletins_parsed/ - 解析和转换后的版本

数据模式

数据文件（officeqa_pro.csv / officeqa_full.csv）包含以下列：

列名	描述
`uid`	唯一问题标识符
`question`	需要回答的问题
`answer`	真实答案
`source_docs`	联邦储备档案馆的原始URL
`source_files`	对应的已解析文件名（例如 `treasury_bulletin_1941_01.txt`）
`difficulty`	难度等级：`easy` 或 `hard`

文档语料库格式

提供了三种格式的美国财政部公报语料库：

原始PDF格式 (treasury_bulletin_pdfs/)
- 描述：从联邦储备档案馆下载的原始PDF文档
- 适用场景：系统可直接处理PDF，或希望从头开始解析
- 规模：约20GB
- 文件数量：696个PDF文件，覆盖1939-2025年
已解析JSON格式 (treasury_bulletins_parsed/jsons/)
- 描述：预解析的版本，包含完整结构信息、边界框、HTML格式表格和元素元数据
- 适用场景：需要完整结构信息、坐标
- 规模：约600MB
- 文件格式：分卷压缩的ZIP文件（treasury_bulletins_parsed_part001.zip等）
转换后文本格式 (treasury_bulletins_parsed/transformed/)
- 描述：代理友好的文本格式，表格已转换为Markdown，更适合LLM读取
- 适用场景：LLM/智能体消费，文本更简洁
- 规模：约200MB
- 文件格式：压缩的ZIP文件（treasury_bulletins_transformed.zip）

源URL与解析文件的映射关系

URL格式：https://fraser.stlouisfed.org/title/treasury-bulletin-407/{MONTH}-{YEAR}-{ID}?page={PAGE}
文件名格式：treasury_bulletin_{YEAR}_{MONTH_NUM}.{ext}
月份名称到数字的映射：
- january → 01, february → 02, march → 03, april → 04, may → 05, june → 06
- july → 07, august → 08, september → 09, october → 10, november → 11, december → 12

评估方法

评估脚本：reward.py 中的 score_answer 函数
评估方式：对数值答案进行模糊匹配，可配置容差级别
容差级别示例：
- 0.0% - 精确匹配
- 0.1% - 相对误差在0.1%以内
- 1.0% - 相对误差在1%以内
- 5.0% - 相对误差在5%以内

搜集汇总

数据集介绍

构建方式

OfficeQA Pro 的构建过程体现了对真实企业文档工作流的严谨模拟。该数据集以近一个世纪的美国财政部公报为原始语料，涵盖89,000页文档和超过2,600万个数值，其构建始于一个由领域专家设计的初始问题种子集。通过与专业数据标注伙伴合作，标注人员被要求基于语料库中的具体信息生成新问题，并严格避免脱离文档的琐碎式提问。为确保问题的严谨性与可验证性，每道题目均经过多轮质量控制：首先由新的标注人员使用原始PDF页面复现答案以验证可重现性；随后利用前沿AI代理生成备选答案，由人工评审员核查歧义或真值错误，并对问题表述或标准答案进行修正。最终，通过过滤仅凭模型参数知识即可解答的问题，确保了所有133道题目均需基于语料库的检索与推理，从而构成了专注于端到端扎根推理的企业级评测基准。

使用方法

OfficeQA Pro 旨在系统评估AI系统在端到端扎根推理任务上的性能。典型的使用方法涉及为AI代理或大型语言模型提供完整的文档语料库或经过解析的结构化文档表示。系统需要自主执行多步骤工作流：首先在庞大的异构文档集合中进行导航与检索，定位与问题相关的具体页面与章节；随后从文本、表格及图表中精确提取证据；最后执行必要的数值计算或统计分析以得出最终答案。评估采用严格的可验证性标准，答案需与单一明确的标准答案进行精确匹配，对于数值答案则计算绝对相对误差。研究可通过比较不同配置下的性能，深入分析文档解析质量、检索策略、表格表示形式以及测试时计算扩展等技术选择对整体推理能力的影响，从而识别系统在当前企业级任务上面临的核心瓶颈与改进方向。

背景与挑战

背景概述

OfficeQA Pro由Databricks AI Research团队于2026年3月推出，旨在构建一个面向企业级应用的端到端基础推理评估基准。该数据集以近百年历史的美国财政部公报为语料库，涵盖8.9万页文档与超过2600万个数值，精心设计了133个需进行多文档解析、检索与跨模态分析的问题。其核心研究在于弥合前沿人工智能系统在抽象推理能力与实际企业工作流程需求之间的鸿沟，通过模拟真实环境中大规模、异构文档的处理任务，为评估AI代理在经济价值任务上的可靠性与实用性提供了严谨的量化标准。

当前挑战

OfficeQA Pro所针对的企业级基础推理任务面临多重挑战：在领域问题层面，系统需在庞大且结构复杂的文档库中实现精准检索，并完成跨表格与文本的多步骤数值分析，同时应对数据随时间修订而产生的版本差异；在构建过程中，挑战主要体现为如何确保问题既反映真实分析需求又具备明确可验证的答案，以及如何有效过滤仅依赖参数化知识即可解决的问题。此外，语料库本身包含从扫描文档到数字PDF的格式变迁，其布局多样性、表格嵌套层级与视觉图表理解均对文档解析的保真度提出了极高要求。

常用场景

经典使用场景

在金融文档智能分析领域，OfficeQA Pro数据集作为一项企业级基准测试，其经典使用场景聚焦于评估人工智能代理在复杂文档库中进行端到端锚定推理的能力。该数据集基于近百年间的美国财政部公报构建，涵盖8.9万页文档和超过2600万个数值，要求模型执行精确的文档解析、跨多文档检索以及结合非结构化文本与表格数据的综合分析。研究者通常利用该数据集测试前沿大语言模型和智能代理在真实企业工作流中的表现，特别是在处理历史财务数据修订、跨时期数值比对以及复杂统计计算等任务时的效能。

解决学术问题

OfficeQA Pro数据集主要解决了人工智能研究中对锚定推理能力进行系统评估的学术难题。传统基准测试往往侧重于封闭环境下的抽象推理，难以反映企业环境中处理大规模异构文档的实际需求。该数据集通过设计133个需多步骤推理的问题，迫使模型必须从庞大文档库中定位、提取并验证信息，从而填补了现有评估体系在文档密集型任务上的空白。其意义在于为学术界提供了首个专注于企业级锚定推理的标准化测试平台，推动了智能代理在文档解析、检索策略和数值分析等核心能力上的研究进展，并为模型在真实经济价值任务中的可靠性设定了明确衡量标准。

实际应用

在实际应用层面，OfficeQA Pro数据集直接模拟了金融机构、政府审计部门及企业财务分析中常见的文档处理工作流。例如，在历史财务数据追溯、政策影响评估或经济趋势分析等场景中，专业人员常需从数十年的公报中提取关键指标并进行跨时期校正。该数据集通过涵盖文档扫描质量差异、表格嵌套层级变化以及数据修订记录等真实复杂性，为开发面向企业文档智能分析的系统提供了关键测试环境。其应用价值体现在能够指导构建更可靠的自动化财务报告生成、合规性检查及宏观经济预测工具，从而提升企业在处理海量历史文档时的效率与准确性。

数据集最近研究