five

bengaliAI/BFCL

收藏
Hugging Face2025-06-02 更新2025-07-05 收录
下载链接:
https://hf-mirror.com/datasets/bengaliAI/BFCL
下载链接
链接失效反馈
官方服务:
资源简介:
伯克利函数调用排行榜(BFCL)是一个用于评估大型语言模型(LLM)调用函数能力的实时排行榜。该数据集从我们的学习成果中构建而成,代表了大多数用户的功能调用用例,例如在代理、企业工作流程的一部分等。我们的评估数据集涵盖了多个类别,并在多种语言中应用。BFCL V1 主要分为 Python 和 Non-Python 两个类别,包含 Simple、Multiple Function、Parallel Function、Parallel Multiple Function、Chatting Capability、Function Relevance Detection、REST API、SQL、Java 和 JavaScript 等子类别。BFCL V2 Live 使用真实世界数据,重点关注多个函数场景和相关性/不相关性检测。BFCL V3 引入了多步骤和多轮函数调用场景。数据集以多个 JSON 文件的形式组织,可以使用提供的辅助函数加载。数据集在 Apache 2.0 许可下发布,并欢迎贡献。

The Berkeley Function Calling Leaderboard (BFCL) is a live leaderboard to evaluate the ability of different LLMs to call functions. The dataset includes multiple releases, each with different categories and compositions. BFCL V1 includes Python and Non-Python categories, with subcategories such as Simple, Multiple Function, Parallel Function, Parallel Multiple Function, Chatting Capability, Function Relevance Detection, REST API, SQL, Java, and JavaScript. BFCL V2 Live uses real-world data and focuses on multiple function scenarios and relevance/irrelevance detection. BFCL V3 introduces multi-step and multi-turn function calling scenarios. The dataset is organized in multiple JSON files and can be loaded using the provided helper functions. The dataset is released under Apache 2.0 license and is open for contributions.
提供机构:
bengaliAI
搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型(LLM)的工具调用能力评估领域,函数调用(Function Calling)已成为衡量模型实用性的关键指标。Berkeley Function Calling Leaderboard(BFCL)数据集由UC Berkeley团队构建,旨在系统性地评估不同LLM在多样化场景下调用函数(即工具)的能力。该数据集并非通过单一方法生成,而是分三个主要版本逐步演进:BFCL V1基于人工设计的典型用例,覆盖Python和非Python(如SQL、Java、JavaScript)的简单、多重、并行及并行多重函数调用场景;BFCL V2则引入真实世界数据,重点强化多重函数调用和相关性检测能力;BFCL V3进一步拓展至多轮和多步交互,通过缺失参数、缺失函数、长上下文及复合情境等子类别模拟复杂代理任务。每个版本的构建均结合了抽象语法树(AST)匹配与可执行函数验证两种评估方法,以确保数据在语法和语义上的双重可靠性。
特点
BFCL数据集的显著特征在于其层次化与多维度的评估框架。从简单单函数调用到复杂的多轮多步交互,数据集涵盖了函数调用的全谱系:包括基础的单函数、多重函数、并行函数及并行多重函数,以及非Python领域的聊天能力、函数相关性检测、REST API、SQL和多种编程语言支持。尤为突出的是其相关性检测子集,专门设计用于测试模型在无关函数文档下的拒绝调用能力,从而衡量模型避免幻觉的鲁棒性。BFCL V2和V3进一步引入了真实世界用例和复合挑战,如长上下文处理和缺失信息推理,使得数据集不仅能评估模型的语法正确性,更能检验其在接近现实代理应用中的决策与推理能力。此外,所有数据均采用Apache 2.0许可证开源发布,确保了研究的可复现性与社区参与度。
使用方法
使用BFCL数据集进行模型评估需遵循特定的加载与执行流程。用户不应采用HuggingFace标准的`load_dataset`方法,因为该数据集以JSON文件形式组织,每个文件代表一个测试类别,其中每行均为一个独立的JSON对象。推荐的加载方式是编写自定义函数逐行读取文件并解析为字典。评估的核心代码托管于GitHub仓库(gorilla项目下的berkeley-function-call-leaderboard目录),其中提供了详细的指令,涵盖如何将数据集与模型输出进行比对。评估指标包括基于AST的语法匹配和基于实际执行结果的功能正确性检查,具体规则在官方发布博客中阐明。用户可通过此流程对比不同LLM在各类函数调用场景下的性能,从而客观衡量模型的工具使用能力。
背景与挑战
背景概述
大语言模型(LLM)的迅猛发展催生了函数调用(Function Calling)这一关键能力,它使得模型能够与外部工具、API及数据库进行交互,从而拓展了其在智能代理、企业工作流等复杂场景中的应用。然而,如何系统性地评估不同LLM在函数调用任务上的表现,始终是该领域的一项核心挑战。2024年2月,加州大学伯克利分校的Gorilla团队(包括Fanjia Yan、Huanzhi Mao、Shishir G. Patil、Ion Stoica等研究者)发布了伯克利函数调用排行榜(BFCL)数据集,旨在构建一个全面、动态的基准测试。该数据集历经三次重大迭代(至2024年9月),不仅覆盖了从简单单函数到复杂多轮、多步骤调用的多样化场景,还引入了实时企业数据与开源社区贡献,显著提升了评估的生态效度与实用性。BFCL已成为衡量LLM工具使用能力的权威标准,对推动模型在真实世界中的自主决策与交互能力产生了深远影响。
当前挑战
BFCL数据集所面临的挑战多维且复杂。首先,在领域问题层面,函数调用任务本身要求模型精准理解函数文档、识别调用时机、处理多函数选择与并行调用,并能在无关上下文中抑制错误调用(如Relevance Detection),这对模型的语义理解、推理与鲁棒性提出了极高要求。其次,在数据集构建过程中,挑战同样严峻:1)数据多样性:需涵盖Python、Java、JavaScript、SQL及REST API等多种语言与接口,确保评估的泛化性;2)真实性与动态性:V2版本引入实时数据,要求持续更新以避免过时,同时保持标注一致性;3)多轮与复杂场景:V3版本模拟多步推理、信息缺失、长上下文干扰等罕见但关键的边缘情况,增加了标注与评估的难度;4)评估标准统一:AST与可执行评估需兼顾语法正确性与功能有效性,而SQL等场景因解法多样难以自动化评分。这些挑战共同构成了BFCL作为可靠基准测试的核心障碍。
常用场景
经典使用场景
Berkeley Function Calling Leaderboard(BFCL)数据集专为评估大语言模型在函数调用(即工具使用)能力而设计,其经典使用场景涵盖从简单的单函数调用到复杂的多步、多轮交互。该数据集通过精心构建的测试用例,将函数调用任务细分为Python与非Python两大类别,并进一步拆解为简单函数、多函数选择、并行函数调用及并行多函数调用等子场景。此外,它还包含聊天能力、函数相关性检测、REST API、SQL、Java和JavaScript等多语言、多模态的评估维度,旨在全面衡量模型在现实世界应用中的函数调用准确性与鲁棒性。研究者通常利用该数据集对模型进行抽象语法树(AST)匹配与可执行性双重验证,从而客观比较不同LLM在工具使用上的表现优劣。
解决学术问题
BFCL数据集有效解决了学术界在评估大语言模型函数调用能力时缺乏标准化、多维度基准的难题。传统评估多聚焦于文本生成或简单问答,忽视了模型在复杂任务中调用外部工具的能力,而这正是智能体(agent)与企业工作流自动化的核心。该数据集通过引入AST与可执行评估相结合的方法,量化了模型在函数选择、参数填充、多函数并行调用以及跨语言支持等方面的表现,揭示了现有模型在相关性检测、多步推理和长上下文处理上的局限性。其意义在于为函数调用这一关键能力提供了可复现的评测框架,推动了从模型能力诊断到针对性改进的研究范式,深刻影响了后续关于LLM工具使用泛化性与鲁棒性的学术探讨。
衍生相关工作
BFCL数据集衍生了多项经典工作,包括Gorilla系列模型及其开源工具OpenFunctions,这些工作旨在提升LLM的函数调用能力。基于BFCL的评测结果,研究者提出了针对性的训练策略,如指令微调与上下文学习,以增强模型在复杂多函数场景下的选择与参数填充准确性。此外,该数据集还催生了关于函数调用鲁棒性的深入分析,例如探索模型在长上下文或无关函数干扰下的表现退化规律,以及多步推理中的错误传播机制。这些衍生研究不仅优化了LLM在智能体任务中的实际部署,还推动了工具学习领域的理论进展,如函数调用与规划能力的耦合分析,为构建更可靠的自主系统奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作