OfficeQA

github2025-12-09 更新2025-12-11 收录

下载链接：

https://github.com/databricks/officeqa

下载链接

链接失效反馈

官方服务：

资源简介：

OfficeQA是Databricks创建的一个基准测试，用于评估模型/代理在端到端Grounded Reasoning任务上的表现。该基准测试使用历史美国财政部公告PDF（1939-2025），包含密集的财务表格、图表和文本数据。数据集包含246个问题及其对应的真实答案。

OfficeQA is a benchmark developed by Databricks to evaluate the performance of models and AI Agents on end-to-end Grounded Reasoning tasks. This benchmark utilizes historical US Department of the Treasury announcement PDFs spanning from 1939 to 2025, which contain dense financial tables, charts and textual data. The dataset comprises 246 questions along with their corresponding ground-truth answers.

创建时间：

2025-11-25

原始信息汇总

OfficeQA数据集概述

数据集基本信息

名称: OfficeQA
创建者: Databricks
核心目的: 用于评估模型/智能体在端到端基于事实的推理任务上的性能。
问题数量: 包含246个问题及对应的真实答案。
许可协议: 数据集采用CC-BY-SA 4.0许可发布，代码和脚本采用Apache 2.0 License。

数据集内容与结构

数据源: 回答问题需要使用**U.S Treasury Bulletin**文档（历史性美国财政部公告PDF，1939-2025年），这些文档包含密集的财务表格、图表和文本数据。
仓库文件:
- officeqa.csv - 包含246个问题的基准数据集。
- treasury_bulletin_pdfs/ - 源PDF文档（共696个文件）。
- reward.py - 用于对模型输出进行评分的评估脚本。

数据集模式 (`officeqa.csv`)

列名	描述
`uid`	唯一问题标识符
`question`	需要回答的问题
`answer`	真实答案
`source_docs`	回答问题所需的文档
`difficulty`	难度等级，取值为 `easy` 或 `hard`

评估方法

通过reward.py脚本进行评估，该脚本为数值答案提供可配置容差级别的模糊匹配。
容差级别示例:
- 0.0% - 精确匹配
- 0.1% - 相对误差在0.1%以内
- 1.0% - 相对误差在1%以内
- 5.0% - 相对误差在5%以内

搜集汇总

数据集介绍

构建方式

在金融文档理解领域，OfficeQA数据集以美国财政部公报（1939-2025年）为知识基底，精心构建了246个需要基于文档进行推理的问题。该数据集的构建过程首先从696份历史PDF文档中提取信息，这些文档包含密集的财务表格、图表和文本数据。随后，专家团队根据文档内容设计问题，确保每个问题都明确指向特定的源文件，并标注了标准答案与难度等级，最终形成结构化的评测基准。

特点

OfficeQA数据集的核心特点在于其真实性与复杂性，全部问题均需依据美国财政部公报这一实际金融文档进行解答。数据集包含简单与困难两种难度级别的问题，覆盖了从基础信息检索到复杂数值推理的多层次任务。其问题设计强调端到端的落地推理能力，要求模型不仅能定位文档中的相关信息，还需进行跨表格、跨页面的综合分析与计算，从而精准模拟现实场景中的文档处理需求。

使用方法

使用OfficeQA数据集时，研究者可首先通过加载CSV文件获取问题、答案及对应的源文档信息。模型在生成预测答案后，可利用配套的评估脚本进行自动化评分。该脚本支持对数值型答案进行模糊匹配，允许设置如1%等可容忍的相对误差范围，从而灵活评估模型在不同精度要求下的表现。整个流程便于研究者系统性地测试和比较各类模型在基于文档的复杂推理任务上的性能。

背景与挑战

背景概述

在人工智能与自然语言处理领域，基于文档的推理能力评估是推动智能系统迈向实际应用的关键环节。OfficeQA基准数据集由Databricks机构构建并发布，专注于评估模型或智能体在端到端“基于事实的推理”任务上的性能。该数据集以1939年至2025年间的《美国财政部公报》历史PDF文档为基础，要求系统从这些包含密集金融表格、图表与文本的真实世界文档中，提取信息以回答复杂问题。其核心研究问题在于检验人工智能如何对非结构化、多模态的官方金融文档进行深度理解与逻辑推理，从而为金融文档分析、智能问答等领域的模型评估提供了重要的基准工具。

当前挑战

OfficeQA旨在解决的领域挑战在于如何让AI系统对真实、复杂且多模态的金融文档进行精准的基于事实的推理。这些文档包含大量数值表格、专业术语与历史语境，要求模型不仅具备文本理解能力，还需融合表格解析与数值计算，以应对“困难”级别问题中隐含的多步推理与信息整合需求。在数据集构建过程中，挑战同样显著：如何从长达数十年的696份PDF文档中，系统地设计出246个兼具代表性与难度梯度的问答对，并确保每个问题都能明确关联到特定源文档，同时处理PDF格式转换、信息抽取以及答案标注的准确性与一致性，这些都对数据集的构建质量提出了严格要求。

常用场景

经典使用场景

在金融文档智能分析领域，OfficeQA数据集为评估人工智能系统的端到端推理能力提供了基准。该数据集基于美国财政部公报的历史PDF文档，涵盖从1939年至2025年的财务表格、图表和文本数据，要求模型通过检索与理解这些复杂文档来回答246个问题。经典使用场景包括测试模型在真实世界文档中的信息提取、数值计算和逻辑推理能力，尤其适用于评估模型在金融或历史文档分析任务中的性能，为研究者提供了一个标准化的测试平台。

衍生相关工作

基于OfficeQA数据集，研究者已衍生出多项经典工作，主要集中在文档检索增强生成、多模态推理模型优化以及金融领域问答系统开发。例如，一些研究利用该数据集探索了结合视觉与文本信息的端到端推理框架，提升了模型对表格和图表的理解能力；另一些工作则专注于改进数值答案的模糊匹配算法，以增强评估的准确性。这些衍生工作不仅扩展了文档智能的研究边界，还为后续的基准构建和实际应用提供了方法论参考。

数据集最近研究