Spreadsheet-RL/Spreadsheet-RL
收藏arXiv2026-05-21 更新2026-05-23 收录
下载链接:
https://huggingface.co/datasets/Spreadsheet-RL/Spreadsheet-RL
下载链接
链接失效反馈官方服务:
资源简介:
Spreadsheet-RL数据集是由伊利诺伊大学厄巴纳-香槟分校和Meta研究团队构建的大规模电子表格任务数据集,旨在推动基于强化学习的大语言模型智能体在真实电子表格自动化任务中的应用。该数据集包含912对初始与最终电子表格,数据来源于在线论坛(如ExcelForum)的真实用户问题,并通过自动化流程收集与验证,覆盖金融、人力资源和供应链管理等专业领域。数据创建过程采用智能编码代理生成可执行操作序列,并结合基于规则的过滤确保质量。该数据集主要应用于训练和评估专门化的电子表格智能体,解决复杂多步骤工作流的自动化难题,提升AI在数据密集型工作流程中的实际效能。
The Spreadsheet-RL Dataset is a large-scale spreadsheet task dataset constructed by the University of Illinois Urbana-Champaign and the Meta Research team, aiming to promote the application of reinforcement learning-based large language model AI Agents in real-world spreadsheet automation tasks. This dataset contains 912 pairs of initial and final spreadsheets, with data sourced from real user questions on online forums such as ExcelForum, collected and verified via automated workflows, covering professional fields including finance, human resources, and supply chain management. The data creation process uses intelligent coding agents to generate executable operation sequences, combined with rule-based filtering to ensure data quality. This dataset is primarily utilized for training and evaluating specialized spreadsheet AI Agents, addressing the automation challenges of complex multi-step workflows and enhancing the practical effectiveness of AI in data-intensive work processes.
提供机构:
伊利诺伊大学厄巴纳-香槟分校; Meta
创建时间:
2026-05-21
原始信息汇总
数据集概述
数据集名称:Spreadsheet-RL
许可证:Creative Commons Attribution-ShareAlike 4.0 International (CC-BY-SA-4.0)
主要语言:英语
标签:电子表格、Excel、强化学习、工具使用、智能体、verl、GRPO
数据集描述
该数据集包含 Spreadsheet-RL 框架使用的训练和评估数据。Spreadsheet-RL 是一个针对电子表格智能体的强化学习框架,智能体能通过工具编辑 Excel 工作簿,并在工作簿重算与答案范围比较后获得基于结果的奖励。
文件结构
数据集包含按解析器格式区分的 Parquet 文件和一个压缩的工作簿存档。
| 文件 | 行数 | 含义 |
|---|---|---|
train_hermes.parquet |
5,928 | 训练集,Hermes 工具调用格式 |
train_qwen3_coder.parquet |
5,928 | 训练集,Qwen3-Coder 工具调用格式 |
test_hermes.parquet |
2,726 | SpreadsheetBench 评估集,Hermes 格式 |
test_qwen3_coder.parquet |
2,726 | SpreadsheetBench 评估集,Qwen3-Coder 格式 |
test_domain_hermes.parquet |
1,662 | Domain-Spreadsheet 评估集,Hermes 格式 |
test_domain_qwen3_coder.parquet |
1,662 | Domain-Spreadsheet 评估集,Qwen3-Coder 格式 |
spreadsheets.zip |
10,316 个任务 | 工作簿文件和任务元数据 |
Parquet 文件命名规则:train_<parser_type>.parquet、test_<parser_type>.parquet、test_domain_<parser_type>.parquet
数据模式
每个 Parquet 文件包含相同列:
| 列名 | 描述 |
|---|---|
data_source |
来源标签,当前为 sheet_arena |
agent_name |
智能体循环名称,当前为 tool_agent |
prompt |
序列化的聊天提示,包括系统和用户任务消息 |
ability |
能力标签,当前为 spreadsheet |
reward_model |
奖励元数据,包括真实工作簿路径和奖励风格 |
extra_info |
任务元数据,如 id、split、answer_position 和主工作簿扩展名 |
工作簿存档
spreadsheets.zip 解压后包含三个文件夹:excelforum/、spreadsheetbench/、domain/
每个任务目录包含:instruction.json、input.xlsx、output.xlsx、target.xlsx
任务分组:
| 组 | 任务数 |
|---|---|
| ExcelForum 训练任务 | 5,928 |
| SpreadsheetBench 任务 | 2,726 |
| Domain-Spreadsheet 任务 | 1,662 |
Domain-Spreadsheet 涵盖领域:
| 领域 | 任务数 |
|---|---|
| finance_beginner | 597 |
| finance_intermediate | 388 |
| finance_advanced | 135 |
| hr | 185 |
| real_estate | 89 |
| sales | 87 |
| supply_chain | 181 |
使用方式
默认训练使用 Hermes 格式文件,通过环境变量指定数据根目录和训练/测试文件路径。对于 Qwen3-Coder 解析器,使用对应格式的 Parquet 文件。



