FuncBenchGen
收藏arXiv2025-10-01 更新2025-11-20 收录
下载链接:
https://github.com/megagonlabs/FuncBenchGen
下载链接
链接失效反馈官方服务:
资源简介:
FuncBenchGen是一个用于评估工具增强语言模型(TaLMs)多步函数调用能力的框架。该框架自动生成无污染的函数调用任务,任务难度可控,例如所需函数调用次数、输入/输出变量数量以及无关函数的数量和连接性。通过将函数依赖关系表示为有向无环图(DAG),并将多步函数调用框架化为图遍历问题,FuncBenchGen能够对影响模型性能的因素进行系统分析,而不受数据偏差或泄露的干扰。
FuncBenchGen is a framework for evaluating the multi-step function calling capabilities of tool-augmented large language models (TaLMs). This framework automatically generates contamination-free function calling tasks with controllable difficulty, including factors such as the number of required function calls, the count of input/output variables, as well as the number and connectivity of irrelevant functions. By representing function dependencies as directed acyclic graphs (DAGs) and framing multi-step function calling as a graph traversal problem, FuncBenchGen enables systematic analysis of factors affecting model performance, free from interference caused by data bias or data leakage.
提供机构:
Megagon Labs
创建时间:
2025-10-01
搜集汇总
数据集介绍

构建方式
在工具增强语言模型评估领域,FuncBenchGen采用合成任务生成框架构建数据集。该框架将多步骤函数调用抽象为有向无环图的遍历问题,通过动态生成函数依赖图来模拟真实场景中的工具调用链。每个任务由核心函数节点、连接型干扰节点和独立型干扰节点构成,函数间通过类型与子类型的语义匹配建立依赖关系,确保评估过程不受预训练数据污染的影响。
使用方法
使用该数据集时,模型需根据给定的函数模式集合和初始变量值,通过多轮函数调用序列计算目标变量值。评估过程中,系统会记录每次函数调用的参数传递和状态更新,并严格验证函数存在性、模式符合性、数据流可用性和数值一致性四个关键指标。研究人员可通过调整图结构参数生成不同难度的测试任务,系统支持实时返回已知变量值列表的增强模式,这种轻量级干预策略被证明能显著提升模型在多步函数调用中的表现。
背景与挑战
背景概述
随着语言模型通过结构化函数调用获得外部工具访问能力,其在解决复杂多步骤任务方面的潜力日益凸显。2025年,Megagon实验室的研究团队Seiji Maekawa等人提出了FuncBenchGen框架,旨在构建无数据污染、可控制难度的多步骤函数调用评估体系。该框架将工具使用建模为隐式函数依赖有向无环图的遍历过程,通过生成合成任务对工具增强语言模型进行压力测试,核心研究聚焦于模型在动态函数组合、状态跟踪及语义推理方面的能力边界。这一创新为系统化评估语言模型的工具调用能力提供了理论基石与实践范式,推动了具身智能领域的方法论革新。
当前挑战
FuncBenchGen需应对双重挑战:在领域问题层面,现有基准测试普遍存在函数集多样性不足、任务复杂度控制粒度粗糙、以及预训练数据与测试集泄露风险,导致评估结果泛化性受限;在构建过程中,需实现依赖图结构的精确参数化控制,包括核心函数数量、依赖深度及干扰函数的类型兼容性设计,同时确保函数间连接基于语义类型匹配而非变量名直译,以模拟真实场景中API的隐式依赖关系。此外,还需建立严格的执行协议来追踪多步骤调用中的状态传播错误,这对评估框架的鲁棒性与可复现性提出了极高要求。
常用场景
经典使用场景
在工具增强语言模型评估领域,FuncBenchGen通过生成可控复杂度的合成多步骤函数调用任务,为系统化测试模型性能提供了标准化框架。该数据集将函数依赖关系建模为有向无环图,要求模型通过图遍历完成变量计算任务,其核心价值在于能够精确调控函数集规模、依赖深度和干扰函数数量等关键参数,从而实现对模型推理能力的多维度压力测试。
解决学术问题
该数据集有效解决了现有基准测试中普遍存在的数据污染问题,通过实时生成评估任务彻底规避预训练数据泄露风险。同时其可调控的复杂度设计使得研究者能够分离出影响模型性能的关键因素,例如研究发现连接型干扰函数会显著降低所有模型表现,而依赖深度增加会导致成功率急剧下降,这些发现为改进模型架构提供了明确方向。
实际应用
在现实应用场景中,FuncBenchGen的图结构抽象可映射至旅游规划、金融分析等复杂工作流。例如用户要求智能代理规划包含酒店定位、景点搜索和交通预订的多步骤行程时,模型需要准确识别函数间的依赖关系并执行正确调用序列。该框架的评估结果直接反映了模型在真实API调用环境中的鲁棒性,为部署到生产系统提供了可靠性依据。
数据集最近研究
最新研究方向
在增强语言模型工具调用能力的研究领域中,FuncBenchGen框架聚焦于构建无污染且复杂度可控的多步骤函数调用评估体系。该框架通过将函数依赖关系建模为有向无环图,系统化生成合成任务以测试模型在变量传播、依赖链推理及干扰函数过滤等方面的能力。前沿研究发现,推理优化模型虽在基础任务中表现优异,但在处理深度依赖链和类型兼容的干扰函数时性能显著下降,尤其当核心函数数量增至40个时,顶级模型的成功率不足10%。近期突破性工作揭示,通过简单增强策略——在每一步调用中显式重述已知变量值,可大幅提升模型状态追踪能力,例如GPT-5的成功率从62.5%跃升至81.3%。这一发现为构建鲁棒性更强的工具增强语言模型提供了关键方法论支撑,同时推动了面向大规模真实API场景的评估范式革新。
相关研究论文
- 1通过Megagon Labs · 2025年
以上内容由遇见数据集搜集并总结生成



