FRTR-Bench

github2026-02-06 更新2026-02-12 收录

下载链接：

https://github.com/AnmolGulati6/FRTR-bench

下载链接

链接失效反馈

官方服务：

资源简介：

FRTR-Bench是一个大规模、多模态的企业电子表格推理基准，旨在评估检索增强和多模态LLM系统在真实Excel工作负载上的表现。它包含30个企业级Excel工作簿，涵盖金融、供应链、医疗、能源、政府和教育领域，强调规模、跨表格推理和多模态性三个核心挑战。

FRTR-Bench is a large-scale, multimodal enterprise spreadsheet reasoning benchmark designed to evaluate retrieval-augmented and multimodal large language model (LLM) systems on real-world Excel workloads. It contains 30 enterprise-grade Excel workbooks spanning the domains of finance, supply chain, healthcare, energy, government and education, and emphasizes three core challenges: scale, cross-table reasoning, and multimodality.

创建时间：

2026-01-14

原始信息汇总

FRTR-Bench 数据集概述

数据集简介

FRTR-Bench 是一个用于企业电子表格推理的大规模多模态基准测试，旨在评估检索增强和多模态大语言系统在现实 Excel 工作负载上的性能。该基准测试区别于先前仅关注单工作表或纯文本表格的电子表格基准，它捕捉了真实世界企业工作簿的规模、结构和模态。

核心特征

规模：每个工作簿包含数十万行数据，总计约 400 万个单元格。
跨工作表推理：包含跨越多个工作表的公式和逻辑。
多模态：包含嵌入式图像，如图表、仪表板和扫描的收据。

数据集统计

指标	数量
工作簿	30
工作表	155
行数	656,457
单元格数	3,928,934
嵌入式图像	53
跨工作表公式	30
问题数量	157

工作簿结构

每个 Excel 文件通常包含：

元数据工作表（模式、描述）。
1–5 个数据工作表，包含大量表格内容。
嵌入式图像（PNG 图表、收据、仪表板）。
问题工作表，包含：
- 自然语言查询。
- 真实答案。
- 明确的来源（单元格引用、公式或图像 ID）。

问题根据工作簿大小和推理复杂性，涵盖不同难度级别（简单、中等、困难）。

评估任务

FRTR-Bench 支持对以下任务进行评估：

电子表格问答。
跨工作表数值推理。
公式识别与合成。
基于表格和图像的多模态推理。
检索增强的电子表格理解。

该基准测试是模型无关的，可与基于检索、基于压缩或长上下文方法一起使用。

使用方式

数据集以原始 Excel 工作簿（.xlsx）形式提供，并附带问题标注。未强制执行任何执行引擎或评估脚本，允许在模型如何检索、推理和回答方面保持灵活性。

鼓励研究人员报告以下指标：

答案准确性。
令牌使用量。
延迟。
证据/来源正确性。

相关研究

FRTR-Bench 与 FRTR（From Rows to Reasoning） 框架一同提出。该基准测试旨在补充（并超越）现有的数据集，如 SpreadsheetLLM 和 SpreadsheetBench。

搜集汇总

数据集介绍

构建方式

在构建企业级电子表格推理基准的背景下，FRTR-Bench的构建过程体现了对现实工作场景的深度模拟。该数据集通过精心筛选30个来自金融、供应链、医疗、能源、政府及教育等多元领域的真实Excel工作簿，确保其覆盖企业级应用的广泛性与复杂性。每个工作簿不仅包含海量数据，总计约400万个单元格和超过65万行记录，还融入了跨工作表公式与嵌入式图像等多模态元素，以模拟实际业务中数据关联与视觉信息的交互。构建过程中，研究者为每个工作簿设计了自然语言问题，并标注了标准答案及明确的来源引用，如单元格位置或图像标识，从而形成一个结构严谨、可追溯的评估框架。

特点

FRTR-Bench的显著特点在于其对企业级电子表格多维复杂性的全面捕捉。数据集规模宏大，涵盖30个工作簿、155个工作表及近400万单元格，突破了传统基准仅关注单表或文本表格的局限。其核心特色在于强调跨工作表推理，通过30个跨表公式连接不同数据源，模拟真实业务中的逻辑链条。同时，数据集融合了53个嵌入式图像，如图表、仪表盘和扫描收据，引入了多模态推理挑战，要求模型同时处理表格数据与视觉信息。问题设计覆盖易、中、难三个难度层级，基于工作簿规模与推理复杂度分级，确保了评估的层次性与全面性。

使用方法

在应用FRTR-Bench时，研究者可灵活采用多种方法进行模型评估。数据集以原始Excel文件形式提供，附带问题标注，不强制使用特定执行引擎或评估脚本，允许根据需求自定义检索、推理与回答流程。用户可针对电子表格问答、跨表数值推理、公式识别与合成及多模态推理等任务展开测试，并报告答案准确性、令牌使用量、延迟及证据正确性等指标。这种开放式的使用方式支持检索增强、压缩基或长上下文等多种模型架构，旨在推动企业级电子表格理解技术的创新与比较。

背景与挑战

背景概述

随着大型语言模型在结构化数据处理领域的广泛应用，企业级电子表格的智能理解与推理逐渐成为研究热点。FRTR-Bench由相关研究团队于近期推出，作为一个大规模多模态基准测试，专注于评估检索增强与多模态大语言模型在真实企业Excel工作负载上的性能。该数据集涵盖金融、供应链、医疗、能源、政府及教育等多个领域，旨在解决企业环境中跨工作表、多模态内容与海量数据规模下的复杂推理问题，为电子表格自动问答与智能分析提供了重要的评估工具。

当前挑战

FRTR-Bench所针对的企业电子表格推理问题，面临多重挑战：在领域层面，需处理跨工作表的公式关联、海量单元格的语义理解以及嵌入式图像与表格数据的多模态融合；在构建过程中，数据集需真实反映企业工作簿的规模与复杂性，涉及数十万行数据、跨表公式及多样图像类型的精确标注，同时确保自然语言问题与答案在逻辑与证据来源上的一致性，这对数据采集、结构设计与质量验证提出了较高要求。

常用场景

经典使用场景

在电子表格智能处理领域，FRTR-Bench作为一个大规模多模态基准，其经典使用场景集中于评估检索增强与多模态大语言模型在复杂企业级Excel工作簿上的推理能力。该数据集通过涵盖金融、供应链、医疗等多个行业的30个真实工作簿，模拟了跨工作表公式计算、海量单元格查询以及图表图像解读等综合任务，为研究者提供了贴近实际业务环境的标准化测试平台。

实际应用

在实际应用层面，FRTR-Bench可直接服务于企业智能数据分析系统的开发与优化。例如在财务审计场景中，系统需自动解析含跨表计算公式的预算报表；在供应链管理领域，则要求模型结合订单图表与库存表格进行动态预测。该数据集通过模拟真实工作负载，为自动化报表生成、智能商业决策支持等垂直应用提供了可靠的性能验证标准。

衍生相关工作

围绕FRTR-Bench衍生的经典工作主要包括与其同步提出的FRTR（From Rows to Reasoning）方法论框架，该框架系统阐述了多模态表格推理的技术路径。同时，该基准也与SpreadsheetLLM、SpreadsheetBench等现有数据集形成互补生态，催生了针对长上下文建模、表格语义压缩等方向的创新研究，持续推动着企业级表格智能处理技术体系的完善与发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集