SheetBench-50

Hugging Face2025-08-10 更新2025-08-11 收录

下载链接：

https://huggingface.co/datasets/hud-evals/SheetBench-50

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字符串类型的特征字段，如提示信息(prompt)、配置信息(mcp_config)等。数据集分为训练集(train)，共有50个示例，总大小为86455字节。

This dataset includes multiple string-type feature fields, such as prompt, mcp_config, and so on. It is split into the training set (train), which contains 50 samples in total with an overall size of 86455 bytes.

创建时间：

2025-08-10

搜集汇总

数据集介绍

构建方式

在电子表格智能体评估领域，SheetBench-50数据集通过精心设计的任务构建机制展现其科学价值。该数据集包含50个经过严格筛选的电子表格任务，每个任务均配备预填充的测试数据表格和自然语言指令描述。构建过程中采用模块化设计，每个样本包含任务提示词、MCP配置参数、唯一标识符和元数据信息，同时集成设置工具和评估工具来确保任务执行的完整闭环。这种构建方式保证了数据集在评估AI代理处理电子表格任务时的全面性和可靠性。

特点

SheetBench-50数据集的特征体现在其任务类型的多样性和评估体系的精确性。数据集涵盖数据查找、数值计算、数据筛选、数据转换和多步骤分析五大核心任务类型，全面覆盖电子表格处理的典型应用场景。每个任务配备明确的成功标准和0-1区间的奖励评分机制，通过自动化评估工具确保评判结果的客观一致性。系统提示中严格规范了答案格式要求，包括日期显示标准和数字精度规范，这种标准化设计使得评估结果具有高度的可比性和可重复性。

使用方法

该数据集的使用遵循现代化的AI代理评估流程，支持单任务测试和全数据集批量评估两种模式。研究人员可通过加载数据集配置任务参数，初始化MCP客户端连接电子表格环境，并配置ClaudeAgent等智能体模型进行任务处理。评估过程中智能体可调用anthropic_computer等工具执行表格操作，系统通过最大步数限制确保计算效率。运行结果自动生成奖励分数，支持性能指标的量化分析，为电子表格处理智能体的能力评估提供标准化测试平台。

背景与挑战

背景概述

电子表格作为企业数据处理与分析的核心工具，其智能化操作一直是人工智能研究的重要方向。SheetBench-50由Hud Evals团队于2024年推出，专门针对电子表格自动化任务构建基准测试集。该数据集聚焦于AI代理在电子表格环境中的复杂任务执行能力，涵盖数据查询、公式计算、数据筛选与转换等多维度操作，旨在推动智能表格处理技术的发展，为办公自动化领域提供标准化评估框架。

当前挑战

数据集构建面临电子表格操作语义理解的复杂性挑战，需要精确映射自然语言指令到具体表格操作序列。技术挑战包括多步操作逻辑的连贯性保持、跨单元格数据引用的准确性验证，以及不同表格格式的兼容性处理。评估层面需解决自动化执行结果与人工预期的一致性度量问题，特别是在数据透视和复杂计算场景下的精度控制。

常用场景

经典使用场景

在电子表格智能体研究领域，SheetBench-50数据集作为基准测试工具，主要用于评估AI代理处理复杂电子表格任务的能力。该数据集涵盖数据查找、公式计算、数据筛选、结构转换和多步骤分析等典型场景，研究人员通过量化分析代理在50个预设任务中的表现，系统评估其理解自然语言指令、执行精确操作和生成准确结果的综合能力。

衍生相关工作

基于该数据集衍生的经典研究包括多模态表格理解模型、自然语言到公式的转换系统以及自动化报表生成框架。这些工作扩展了智能体在财务分析、商业智能和科研数据处理等垂直领域的应用深度，催生了诸如TableGPT和SpreadsheetCoder等创新系统，推动了整个表格计算智能领域的技术演进和方法论创新。

数据集最近研究