ComplexFuncBench 复杂函数调用评估数据集

超神经2025-02-13 更新2025-01-25 收录

下载链接：

https://hyper.ai/cn/datasets/37358

下载链接

链接失效反馈

官方服务：

资源简介：

ComplexFuncBench 全称为 Complex Function Calling Benchmark，是一个用于评估大语言模型 (LLMs) 在复杂函数调用场景下的能力基准测试数据集。该数据集由智谱 AI 和清华大学的研究人员于 2025 年开发，旨在填补现有基准测试在多步骤和受限函数调用方面的空白，相关论文成果为「ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario」。

ComplexFuncBench, whose full name is Complex Function Calling Benchmark, is a benchmark dataset for evaluating the capabilities of large language models (LLMs) in complex function calling scenarios. This dataset was developed by researchers from Tsinghua University and Zhipu AI in 2025, aiming to fill the gap in existing benchmarks regarding multi-step and constrained function calling. Its associated research paper is titled "ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario".

创建时间：

2025-01-21

搜集汇总

数据集介绍

背景与挑战

背景概述

ComplexFuncBench 是一个用于评估大语言模型在复杂函数调用场景下的基准测试数据集，由智谱AI和清华大学于2025年开发。该数据集包含1k个样本，涵盖多步骤和受约束的函数调用，需要处理长参数归档和128k长的上下文。

以上内容由遇见数据集搜集并总结生成