gorilla-llm/Berkeley-Function-Calling-Leaderboard

Name: gorilla-llm/Berkeley-Function-Calling-Leaderboard
Creator: gorilla-llm
Published: 2026-04-29 00:03:02
License: 暂无描述

Hugging Face2026-04-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/gorilla-llm/Berkeley-Function-Calling-Leaderboard

下载链接

链接失效反馈

官方服务：

资源简介：

Berkeley Function Calling Leaderboard数据集是一个用于评估不同大型语言模型（LLMs）在调用函数（或工具）方面能力的动态排行榜。该数据集涵盖了多种编程语言和场景，包括Python和非Python环境下的函数调用。数据集分为多个类别，如简单函数、多函数、并行函数等，并且包含了可执行和抽象语法树（AST）评估。此外，数据集还包含了聊天能力、函数相关性检测、REST API、SQL、Java和JavaScript等非Python评估。数据集的组织形式为多个JSON文件，每个文件代表一个测试类别。

The Berkeley Function Calling Leaderboard dataset is a live leaderboard designed to evaluate the ability of different large language models (LLMs) to call functions (also referred to as tools). The dataset spans diverse categories and multiple programming languages, including both Python and non-Python environments. It is divided into various categories such as simple functions, multiple functions, parallel functions, etc., and includes both executable and abstract syntax tree (AST) evaluations. Additionally, the dataset covers non-Python evaluations like chatting capability, function relevance detection, REST API, SQL, Java, and JavaScript. The dataset is organized into multiple JSON files, with each file representing a test category.

提供机构：

gorilla-llm

原始信息汇总

伯克利函数调用排行榜数据集

数据集概述

伯克利函数调用排行榜数据集是一个实时排行榜，用于评估不同大型语言模型（LLMs）调用函数（也称为工具）的能力。该数据集涵盖了多种类别和多种编程语言，旨在代表大多数用户在代理、企业工作流程等场景中的函数调用用例。

版本信息

最新版本发布日期：2024年4月28日
原始发布日期：2024年2月26日

更新日志

2024年4月28日：新增模型 snowflake/arctic。
2024年4月27日：修复开源模型成本和延迟计算的错误。
2024年4月25日：新增5个模型：meta-llama/Meta-Llama-3-8B-Instruct、meta-llama/Meta-Llama-3-70B-Instruct、gemini-1.5-pro-preview-0409、command-r-plus、command-r-plus-FC。
2024年4月19日：修复可执行测试类别中的评估数据集问题，更新评估标准。
2024年4月18日：增加更全面的API健全性检查。
2024年4月16日：切换到Anthropic的新工具使用Beta版本来生成Claude 3 FC系列数据。
2024年4月11日：在排行榜统计中增加第95百分位延迟。
2024年4月10日：为可执行测试类别引入REST API健全性检查。
2024年4月9日：修复评估数据集中的错误。
2024年4月8日：修复函数调用模型输入类型转换的错误。
2024年4月3日：修复评估数据集可能答案的错误，实施字符串标准化。
2024年4月1日：更新排行榜，新增模型，改进AST评估过程。
2024年3月11日：更新排行榜，新增3个模型。
2024年3月5日：更新排行榜，新增3个模型。
2024年2月29日：修改REST评估。
2024年2月27日：伯克利函数调用排行榜首次发布。

数据集组成

数据集包含多个JSON文件，每个文件代表一个测试类别。具体类别如下：

#	类别
200	聊天能力
100	简单（执行）
50	多重（执行）
50	并行（执行）
40	并行与多重（执行）
400	简单（AST）
200	多重（AST）
200	并行（AST）
200	并行与多重（AST）
240	相关性
70	REST
100	Java
100	SQL
50	Javascript

数据集描述

数据集主要分为两大类：

Python：包括简单函数、多重函数、并行函数、并行多重函数。
非Python：包括聊天能力、函数相关性检测、REST API、SQL、Java、Javascript。

Python类别

简单函数：用户提供单个JSON函数文档，仅调用一个函数。
多重函数：用户问题仅调用2到4个JSON函数文档中的一个函数。
并行函数：用户查询并行调用多个函数。
并行多重函数：结合并行函数和多重函数的特点。

非Python类别

聊天能力：设计无函数传递的场景，评估模型是否能输出聊天消息。
函数相关性检测：设计无相关函数的场景，评估模型是否能输出非函数调用响应。
REST API：包括真实世界的GET请求，测试模型生成可执行REST API调用的能力。
SQL：包括自定义的sql.execute函数，测试模型构建SQL查询的能力。
Java和Javascript：测试模型在不同编程语言中的类型处理能力。

评估

数据集用于伯克利函数调用排行榜的评估，详细评估过程和指标可在发布博客中找到。

搜集汇总

数据集介绍

构建方式

在大型语言模型工具调用能力评估领域，伯克利函数调用排行榜（BFCL）数据集的构建体现了严谨的工程化设计。该数据集通过三个主要版本迭代演进：V1版本确立了核心评估框架，涵盖Python环境下的简单函数、多重函数、并行函数及并行多重函数调用，并辅以非Python场景如闲聊能力、函数相关性检测、REST API、SQL及Java/JavaScript等多语言支持。V2版本引入了来自企业及开源贡献的真实世界动态数据，强化了对多重函数场景与相关性检测的评估。V3版本则进一步拓展至多轮对话与多步骤函数调用场景，设计了基础多轮、增强多轮（含参数缺失、函数缺失、长上下文及复合挑战）等复杂类别，旨在模拟智能体在真实工作流中面临的序列决策与状态管理问题。

特点

该数据集的核心特征在于其评估维度的系统性与前瞻性。它不仅覆盖了从单函数调用到并行多重调用的基础能力谱系，更通过引入多轮、多步骤交互场景，深入探究模型在时序依赖与信息整合方面的表现。数据集设计强调语言多样性，除Python外，亦包含对REST API、SQL及Java/JavaScript等编程范式的专门评估，以检验模型跨语言类型的泛化能力。特别值得注意的是，其评估体系融合了抽象语法树（AST）匹配与可执行性验证双重标准，后者通过模拟真实API调用与函数执行，确保了评估结果与下游应用效能的高度关联。数据集持续吸纳真实场景数据，使其能够动态反映模型在接近生产环境中的工具调用鲁棒性。

使用方法

为使用该数据集进行评估，研究者需遵循项目代码库提供的详细指南。数据集以多个JSON文件组织，每个文件对应一个测试类别，文件中的每一行均为独立的JSON对象。加载时需使用自定义脚本逐行解析，目前尚不兼容HuggingFace Datasets库的标准加载方法。评估过程需调用官方提供的评测框架，该框架支持对不同模型在各测试类别上的表现进行标准化度量与对比。用户可通过配置指定评估类别（如简单函数、多轮对话等），并依据AST匹配准确率或函数执行成功率等指标量化模型性能。数据集旨在服务于伯克利函数调用排行榜，为社区提供一个持续更新、基准统一的模型工具调用能力公开评估平台。

背景与挑战

背景概述

伯克利函数调用排行榜（Berkeley Function Calling Leaderboard，BFCL）由加州大学伯克利分校的研究团队于2024年2月首次发布，旨在系统评估大型语言模型在函数调用（亦称工具使用）方面的能力。该数据集聚焦于智能体与企业工作流等实际应用场景，涵盖了从简单单函数调用到复杂多轮交互的多样化测试类别，并支持Python、Java、JavaScript及SQL等多种编程语言。其核心研究问题在于如何精准衡量模型在现实环境中理解用户意图、选择恰当函数并生成可执行代码的效能，对推动语言模型工具化与智能体系统发展具有显著影响力。

当前挑战

该数据集致力于解决函数调用领域的核心挑战，即模型在复杂、动态的真实场景中准确解析用户查询、从多函数文档中筛选相关函数并生成结构正确的调用代码。构建过程中的挑战包括：设计涵盖多语言、多场景的综合性测试用例，确保评估既包含语法正确性（AST解析）又兼顾执行可行性；处理多轮对话与复合任务时，需模拟长上下文、参数缺失及函数动态补充等复杂交互逻辑；此外，平衡数据集的代表性与评估的公平性，避免因答案多样性或执行环境差异导致评测偏差，亦是构建中的关键难点。

常用场景

经典使用场景

在大型语言模型工具调用能力评估领域，伯克利函数调用排行榜数据集为研究者提供了标准化的测试基准。该数据集通过模拟真实场景中的函数调用需求，如单函数调用、多函数选择、并行函数调用及并行多函数调用等复杂情境，系统性地检验模型在解析用户指令、匹配函数文档及生成可执行代码方面的性能。其设计覆盖了从简单到高阶的调用模式，为模型在工具使用场景下的鲁棒性与准确性提供了全面评估框架。

实际应用

在实际应用层面，该数据集直接服务于智能体开发、企业工作流自动化以及跨平台API集成等场景。例如，在构建基于LLM的自主智能体时，模型需准确调用天气查询、数据库操作或REST API等外部工具以完成用户请求。数据集通过涵盖Python、Java、JavaScript及SQL等多种语言环境，并纳入真实企业贡献的实时数据，确保了评估结果与产业实践的高度契合，为开发高效、稳定的工具调用系统提供了关键参照。

衍生相关工作

围绕该数据集，学术界与工业界已衍生出一系列经典研究工作。例如，基于其评估框架，多项研究聚焦于提升模型在复杂多轮对话中的工具调用连贯性，或探索模型在长上下文注入干扰信息下的核心信息提取能力。同时，该排行榜持续激励着新型函数调用模型的开发与优化，推动了如Gorilla等开源项目在工具调用泛化性与准确性方面的迭代进步，并为后续多模态工具调用与自主智能体系统的研究奠定了数据与方法学基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集