SpreadsheetBench-v2

Hugging Face2026-04-01 更新2026-04-02 收录

下载链接：

https://huggingface.co/datasets/KAKA22/SpreadsheetBench-v2

下载链接

链接失效反馈

官方服务：

资源简介：

SpreadsheetBench 2 是一个用于评估端到端业务电子表格工作流程的基准测试。与现有专注于孤立操作的基准不同，SpreadsheetBench 2 要求代理完成多步骤协调操作的工作流级目标，执行复杂多表格工作簿中的跨表格推理，并生成包括结构化模型、修复的电子表格和准确可视化在内的交付级成果。该数据集的关键特点包括：1) 端到端工作流，任务设计为自包含的多阶段目标，需要协调的电子表格操作序列；2) 专业金融领域，涵盖真实业务场景，包括多报表集成的金融建模、10种错误类型的系统调试和数据可视化；3) 复杂工作簿结构，任务涉及每个问题多个表格，需要大量单元格修改，调试任务平均需要数百次单元格编辑，金融建模任务则需要超过一千次。

创建时间：

2026-03-31

原始信息汇总

SpreadsheetBench 2 数据集概述

数据集基本信息

数据集名称：SpreadsheetBench 2
许可证：mit
主页：https://spreadsheetbench.github.io/

数据集简介

SpreadsheetBench 2 是一个用于评估智能体在端到端业务电子表格工作流中表现的基准测试。与现有专注于孤立操作的基准不同，SpreadsheetBench 2 要求智能体：

通过多步骤协调操作完成工作流级别的目标。
在复杂的多工作表工作簿中进行跨工作表推理。
产生交付级别的结果，包括结构化模型、修复的电子表格和准确的可视化。

关键特性

端到端工作流：任务设计为自包含的多阶段目标，需要一系列协调的电子表格操作，而非原子公式生成或局部编辑。
专业金融领域：涵盖真实的业务场景，包括多报表整合的财务建模、跨越10种错误类型的系统性错误调试以及数据可视化。
复杂工作簿结构：任务涉及每个问题包含多个工作表的工作簿，并需要大量的单元格修改。调试任务平均需要数百次单元格编辑，财务建模任务则需要超过一千次。

搜集汇总

数据集介绍

构建方式

在金融数据分析领域，SpreadsheetBench-v2数据集的构建聚焦于模拟真实业务场景中的端到端工作流程。该数据集通过设计自包含的多阶段任务，要求智能体执行协调的多步骤操作，而非孤立的公式生成或局部编辑。其任务涵盖复杂的多工作表工作簿，涉及跨表格推理，并整合了专业金融建模、系统性错误调试及数据可视化等实际业务需求，从而构建出一个全面评估智能体在复杂电子表格环境中综合能力的基准。

特点

SpreadsheetBench-v2数据集的核心特点在于其端到端工作流程设计，强调多阶段目标的协调完成，而非原子化操作。该数据集覆盖专业金融领域，包括多报表整合的财务建模、跨越十种错误类型的系统性调试以及数据可视化任务。其工作簿结构复杂，每个问题涉及多个工作表，平均需要数百次单元格修改，财务建模任务甚至要求上千次编辑，从而真实反映了业务电子表格的复杂性和动态性。

使用方法

使用SpreadsheetBench-v2数据集时，研究者可将其作为评估智能体在业务电子表格工作流中综合性能的基准。通过加载包含多工作表的工作簿，智能体需执行端到端任务，如完成财务模型构建、修复跨表格错误或生成准确的可视化结果。该数据集支持对智能体的多步骤推理、跨表格操作及交付成果质量进行系统测试，为开发更高效的电子表格处理工具提供实证基础。

背景与挑战

背景概述

随着人工智能在办公自动化领域的深入应用，电子表格作为商业分析的核心工具，其智能化处理能力成为研究焦点。SpreadsheetBench 2由相关研究团队于近期推出，旨在构建一个评估智能代理在端到端商业电子表格工作流中性能的基准。该数据集聚焦于真实业务场景，如财务建模与错误调试，通过模拟多阶段、多表格的复杂操作，推动智能体从孤立操作向协同推理的范式转变，对提升商业决策自动化水平具有显著影响力。

当前挑战

该数据集致力于解决智能代理在商业电子表格端到端工作流自动化中的核心挑战，包括跨表格协同推理、多步骤操作序列规划以及可交付成果的生成。在构建过程中，研究人员面临模拟真实业务逻辑的复杂性，需整合财务建模、系统化错误调试等多种专业场景，同时确保工作簿结构具有足够的多样性与深度，以支持智能体进行大规模单元格修改与跨表数据关联，这对数据生成与验证提出了较高要求。

常用场景

经典使用场景

在商业智能与数据分析领域，SpreadsheetBench-v2 作为评估智能代理端到端工作流能力的基准，其经典使用场景聚焦于模拟真实企业环境中的复杂电子表格操作。该数据集通过设计多阶段、自包含的任务目标，要求代理执行从数据整合、模型构建到错误调试与可视化呈现的连贯流程，而非局限于孤立的公式生成或局部编辑。这种设计使得研究者能够系统评估代理在跨工作表推理、大规模单元格修改及专业财务建模方面的综合性能，为自动化办公工具的智能化发展提供了关键测试平台。

解决学术问题

该数据集主要解决了智能代理在电子表格自动化中面临的若干核心学术问题，包括多步骤协调操作的规划能力、跨复杂工作表结构的推理机制，以及专业领域（如财务建模）的知识应用。传统基准往往侧重于原子化任务，难以反映真实工作流的连续性；SpreadsheetBench-v2 通过引入端到端业务流程，填补了评估代理在整合性任务中表现的理论空白。其意义在于推动了人机协作研究向更高层次的认知任务延伸，为自动化代理的鲁棒性、可扩展性及领域适应性设定了新的研究标准。

衍生相关工作

围绕 SpreadsheetBench-v2 数据集，已衍生出一系列经典研究工作，主要集中在智能代理架构设计、跨模态推理模型以及领域自适应学习等方面。例如，部分研究基于其多工作表结构开发了新型图神经网络，以增强代理对单元格依赖关系的理解；另有工作利用其财务建模任务探索了符号推理与神经网络的结合策略。这些衍生成果不仅丰富了电子表格自动化的方法论体系，还促进了自然语言处理、程序合成与业务智能等交叉领域的融合创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集