ComplexFuncBench

github2025-01-20 更新2025-01-21 收录

下载链接：

https://github.com/THUDM/ComplexFuncBench

下载链接

链接失效反馈

官方服务：

资源简介：

ComplexFuncBench数据集专门设计用于复杂函数调用评估，包含1000个复杂函数调用样本，涵盖五个方面：单轮多步函数调用、用户提供约束的函数调用、需要从隐含信息中推理参数值的函数调用、参数值超过500个标记的长参数值函数调用以及128k长上下文长度的函数调用。

The ComplexFuncBench dataset is specifically designed for complex function call evaluation, containing 1000 complex function call samples covering five aspects: single-round multi-step function calls, function calls with user-provided constraints, function calls that require inferring parameter values from implicit information, function calls with long parameter values exceeding 500 tokens, and function calls with a 128k-long context length.

创建时间：

2025-01-16

原始信息汇总

Complex Function Calling Benchmark (ComplexFuncBench) 数据集概述

数据集简介

Complex Function Calling Benchmark (ComplexFuncBench) 是一个专门为复杂函数调用评估设计的基准数据集。该数据集包含1,000个复杂函数调用样本，涵盖以下五个方面：

单轮多步函数调用
用户提供约束的函数调用
需要从隐式信息中进行参数值推理的函数调用
参数值超过500个标记的长参数函数调用
128k长上下文长度的函数调用

数据集特点

与其他函数调用基准相比，ComplexFuncBench 具有以下特点：

	真实API响应	多步调用	约束条件	参数值推理	长参数推理	长上下文
API-Bench	❌	❌	❌	❌	❌	❌
ToolBench	✅	✅	❌	❌	❌	❌
T-Eval	✅	✅	❌	❌	❌	❌
BFCL	❌	✅	❌	❌	✅	✅
Tool Sandbox	❌	✅	❌	❌	❌	❌
`ComplexFuncBench`	✅	✅	✅	✅	✅	✅

数据集排行榜

以下是不同模型在 ComplexFuncBench 上的表现：

模型	总体成功率	总体调用准确率	完整性	正确性
Claude-3.5-Sonnet (20241022)	61.00%	79.27	1.84	1.85
GPT-4o (2024-08-06)	60.50%	80.55	1.66	1.75
GLM-4-Long	57.10%	76.35	1.72	1.74
GPT-4-Turbo (2024-04-09)	49.50%	71.38	1.72	1.81
Claude-3.5-Haiku (20241022)	45.80%	69.50	1.79	1.71
Qwen2.5-72B	40.10%	58.32	1.80	1.75
Mistral Large 2	20.10%	48.78	0.94	1.0
GLM-4-9B	9.40%	27.97	1.15	1.03
Qwen2.5-7B	5.0%	18.19	1.5	1.47
Llama-3.1-405B	4.00%	11.87	0.43	0.30
Llama-3.1-70B	2.70%	8.17	0.67	0.36
Llama-3.1-8B	0.10%	1.34	0.18	0.09

数据集构建方法

数据收集

ComplexFuncBench 数据集的构建分为三个阶段：粗粒度生成、细粒度标注和泛化。数据集包含1,000个复杂函数调用样本，其中600个为单领域样本，400个为跨领域样本。

自动化评估

自动化评估框架 ComplexEval 同时评估模型的复杂函数调用能力和响应生成能力。

数据集使用指南

准备工作

下载数据集和代码库： shell git clone https://github.com/THUDM/ComplexFuncBench.git cd ComplexFuncBench
安装依赖： shell pip install -r requirements.txt

模型部署

对于闭源模型，确保在 .env 文件中包含相应的API密钥。
对于开源模型，使用 vLLM 部署模型。

运行模型推理

shell python evaluation.py --model_name {model_name} --proc_num {proc_num}

导出结果

shell python print_results.py --result_dir {result_dir}

引用

如果您在研究中使用了该数据集，请引用以下文献：

@misc{zhong2025complexfuncbench, title={ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario}, author={Lucen Zhong and Zhengxiao Du and Xiaohan Zhang and Haiyi Hu and Jie Tang}, year={2025}, eprint={2501.10132}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.10132}, }

搜集汇总

数据集介绍

构建方式

ComplexFuncBench数据集的构建过程分为三个阶段：粗粒度生成、细粒度标注和泛化处理。首先，通过自动化工具生成初步的函数调用样本，随后由专业人员进行细致的标注，确保样本的复杂性和多样性。最终，数据集经过泛化处理，涵盖600个单领域样本和400个跨领域样本，总计1000个复杂函数调用样本。这一构建方式确保了数据集在复杂函数调用评估中的全面性和代表性。

特点

ComplexFuncBench数据集的特点在于其专注于复杂函数调用的多维度评估。数据集涵盖了五个关键方面：单轮多步函数调用、用户约束下的函数调用、基于隐式信息的参数值推理、超过500个token的长参数值处理以及128k长上下文场景下的函数调用。这些特点使得ComplexFuncBench在现有函数调用基准测试中独树一帜，能够全面评估模型在复杂场景下的表现。

使用方法

使用ComplexFuncBench数据集进行评估时，首先需从HuggingFace下载数据集并安装相关依赖。对于闭源模型，需配置API密钥；对于开源模型，则需通过vLLM部署模型。随后，运行`evaluation.py`脚本进行模型推理，指定模型名称和进程数。评估结果将保存在指定目录中，可通过`print_results.py`脚本导出结果。这一流程确保了评估过程的高效性和可重复性。

背景与挑战

背景概述

ComplexFuncBench数据集由清华大学的研究团队于2025年提出，旨在评估复杂函数调用能力。该数据集包含1000个复杂函数调用样本，涵盖单轮多步调用、用户约束、隐式信息参数推理、长参数值以及128k长上下文等五个方面。相较于其他函数调用基准，ComplexFuncBench在真实API响应、多步调用、约束处理、参数值推理、长参数推理和长上下文处理等方面均表现出色。该数据集的推出为自然语言处理领域中的复杂函数调用任务提供了新的评估标准，推动了相关技术的发展。

当前挑战

ComplexFuncBench数据集在构建和应用过程中面临多重挑战。首先，复杂函数调用任务本身具有较高的技术难度，尤其是在多步调用和长上下文处理方面，模型需要具备强大的推理能力和上下文理解能力。其次，数据集的构建过程涉及粗粒度生成、细粒度标注和泛化三个阶段，确保样本的多样性和复杂性对数据质量提出了极高要求。此外，自动化评估框架ComplexEval的设计与实现也面临挑战，如何在评估过程中同时兼顾函数调用能力和响应生成能力，是确保评估结果准确性的关键。这些挑战不仅考验了数据集的构建技术，也为未来相关研究提供了重要的参考方向。

常用场景

经典使用场景

ComplexFuncBench数据集专为复杂函数调用评估而设计，广泛应用于自然语言处理领域中的函数调用任务。其经典使用场景包括多步骤函数调用、用户约束条件下的函数调用、隐式信息参数推理、长参数值处理以及长上下文环境下的函数调用。这些场景覆盖了从简单到复杂的多种函数调用需求，为模型提供了全面的测试环境。

实际应用

在实际应用中，ComplexFuncBench被广泛用于评估和优化智能助手、自动化工具和API调用系统。例如，在智能客服系统中，模型需要处理多步骤的用户请求，并根据用户提供的约束条件生成准确的响应。该数据集的应用帮助开发者识别模型在处理复杂任务时的弱点，进而改进系统的性能和用户体验。

衍生相关工作

ComplexFuncBench的发布催生了一系列相关研究工作，特别是在复杂函数调用模型的开发与优化方面。基于该数据集的研究成果包括改进的多步骤推理算法、长上下文处理技术以及用户约束条件下的参数推理方法。这些工作不仅提升了模型的函数调用能力，还为自然语言处理领域的其他任务提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集