FoRepBench

Name: FoRepBench
Creator: Microsoft United States
Published: 2025-08-15 00:43:35
License: 暂无描述

arXiv2025-08-15 更新2025-08-22 收录

下载链接：

https://github.com/benchmarks/tree/main/FoRepBench

下载链接

链接失效反馈

官方服务：

资源简介：

FoRepBench是一个针对Excel公式修复的大规模数据集，由Microsoft United States创建，包含618个高质量样本，涵盖常见的运行时错误。数据集的创建过程包括从在线论坛收集种子样本，利用LLMs进行数据生成和验证，并采用执行和LLM判断相结合的方式进行数据验证。FoRepBench旨在解决Excel公式修复中的语义错误问题，为相关研究提供资源和基准。

提供机构：

Microsoft United States

创建时间：

2025-08-15

搜集汇总

数据集介绍

构建方式

在电子表格公式修复领域，FoRepBench数据集通过创新的合成生成流程构建。该流程以少量高质量种子样本为基础，采用少样本提示技术驱动大型语言模型生成多样化样本，随后通过执行验证和LLM-as-a-Judge框架进行双重校验，确保生成数据的正确性与语义一致性，最终形成包含618个高质量样本的基准数据集。

使用方法

研究人员可利用该数据集训练和评估公式修复模型，特别适用于结合上下文感知的大型语言模型方法。通过提供表格数据、错误公式及自然语言描述，模型需生成修正后的公式，并通过执行匹配度等指标验证修复效果，推动电子表格智能辅助工具的发展。

背景与挑战

背景概述

FoRepBench由微软研究院团队于2025年创建，旨在解决电子表格公式语义修复的评估瓶颈。该数据集聚焦Excel运行时错误（如#N/A、#REF!等）的自动修正问题，填补了传统方法仅关注语法修复而忽略语义一致性的空白。通过整合电子表格上下文、自然语言描述与公式对，它为大型语言模型在端用户编程领域的应用提供了首个大规模基准测试框架，推动了智能表格辅助工具的发展。

当前挑战

该数据集核心挑战在于语义运行时错误的复杂修复：需同时解析公式逻辑、表格数据结构和用户意图，而传统APR方法难以直接迁移。构建过程中面临双重困难：一是真实错误样本稀缺，需通过论坛爬取与人工验证保证质量；二是合成数据需平衡执行正确性与语义真实性，尽管采用LLM验证框架，仍存在生成样本复杂度低于真实场景的局限性。

常用场景

经典使用场景

在电子表格自动化错误修复研究中，FoRepBench作为首个专注于Excel公式运行时语义错误的大规模基准数据集，为评估大语言模型在公式修复任务中的性能提供了标准化测试平台。该数据集通过整合电子表格上下文、错误公式及自然语言描述，支持模型在真实场景下进行多维度推理与修正，显著提升了评估的全面性与可靠性。

解决学术问题

FoRepBench解决了电子表格领域长期缺乏高质量语义错误修复数据的问题，填补了传统方法仅关注语法层面而忽略运行时错误的空白。通过提供包含上下文信息的样本，该数据集支持研究者开发能够理解用户意图并执行复杂逻辑修正的模型，推动了自动化程序修复技术在低资源编程环境中的发展。

实际应用

在实际应用中，FoRepBench可集成至企业级电子表格辅助工具中，帮助非专业用户自动诊断和修复常见的运行时错误（如#N/A、#REF!等）。其上下文感知特性使得修复系统能够结合表格布局与用户描述提供精准修正建议，大幅降低人工调试成本，提升数据处理效率与准确性。

数据集最近研究