ComplexFuncBench
收藏Complex Function Calling Benchmark (ComplexFuncBench) 数据集概述
数据集简介
Complex Function Calling Benchmark (ComplexFuncBench) 是一个专门为复杂函数调用评估设计的基准数据集。该数据集包含1,000个复杂函数调用样本,涵盖以下五个方面:
- 单轮多步函数调用
- 用户提供约束的函数调用
- 需要从隐式信息中进行参数值推理的函数调用
- 参数值超过500个标记的长参数函数调用
- 128k长上下文长度的函数调用
数据集特点
与其他函数调用基准相比,ComplexFuncBench 具有以下特点:
| 真实API响应 | 多步调用 | 约束条件 | 参数值推理 | 长参数推理 | 长上下文 | |
|---|---|---|---|---|---|---|
| API-Bench | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ |
| ToolBench | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| T-Eval | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
| BFCL | ❌ | ✅ | ❌ | ❌ | ✅ | ✅ |
| Tool Sandbox | ❌ | ✅ | ❌ | ❌ | ❌ | ❌ |
ComplexFuncBench |
✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
数据集排行榜
以下是不同模型在 ComplexFuncBench 上的表现:
| 模型 | 总体成功率 | 总体调用准确率 | 完整性 | 正确性 |
|---|---|---|---|---|
| Claude-3.5-Sonnet (20241022) | 61.00% | 79.27 | 1.84 | 1.85 |
| GPT-4o (2024-08-06) | 60.50% | 80.55 | 1.66 | 1.75 |
| GLM-4-Long | 57.10% | 76.35 | 1.72 | 1.74 |
| GPT-4-Turbo (2024-04-09) | 49.50% | 71.38 | 1.72 | 1.81 |
| Claude-3.5-Haiku (20241022) | 45.80% | 69.50 | 1.79 | 1.71 |
| Qwen2.5-72B | 40.10% | 58.32 | 1.80 | 1.75 |
| Mistral Large 2 | 20.10% | 48.78 | 0.94 | 1.0 |
| GLM-4-9B | 9.40% | 27.97 | 1.15 | 1.03 |
| Qwen2.5-7B | 5.0% | 18.19 | 1.5 | 1.47 |
| Llama-3.1-405B | 4.00% | 11.87 | 0.43 | 0.30 |
| Llama-3.1-70B | 2.70% | 8.17 | 0.67 | 0.36 |
| Llama-3.1-8B | 0.10% | 1.34 | 0.18 | 0.09 |
数据集构建方法
数据收集
ComplexFuncBench 数据集的构建分为三个阶段:粗粒度生成、细粒度标注和泛化。数据集包含1,000个复杂函数调用样本,其中600个为单领域样本,400个为跨领域样本。
自动化评估
自动化评估框架 ComplexEval 同时评估模型的复杂函数调用能力和响应生成能力。
数据集使用指南
准备工作
-
下载数据集和代码库: shell git clone https://github.com/THUDM/ComplexFuncBench.git cd ComplexFuncBench
-
安装依赖: shell pip install -r requirements.txt
模型部署
- 对于闭源模型,确保在
.env文件中包含相应的API密钥。 - 对于开源模型,使用
vLLM部署模型。
运行模型推理
shell python evaluation.py --model_name {model_name} --proc_num {proc_num}
导出结果
shell python print_results.py --result_dir {result_dir}
引用
如果您在研究中使用了该数据集,请引用以下文献:
@misc{zhong2025complexfuncbench, title={ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario}, author={Lucen Zhong and Zhengxiao Du and Xiaohan Zhang and Haiyi Hu and Jie Tang}, year={2025}, eprint={2501.10132}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2501.10132}, }




