SpeechFCEval

Hugging Face2025-12-23 更新2025-12-24 收录

下载链接：

https://huggingface.co/datasets/FunAudioLLM/SpeechFCEval

下载链接

链接失效反馈

官方服务：

资源简介：

SpeechFCEval是一个基于语音的功能调用基准数据集，包含来自现有开源文本数据集和构建的智能交互场景的数据。它涵盖英语和中文，支持单功能和并行功能调用。数据集包含多个子集，每个子集有不同的语言、音频类型（TTS或人声）、功能模式（单功能或并行功能）、大小、来源和类别。数据格式包括用户语音转录、对应的WAV音频文件名、功能调用候选列表（JSON格式）、时间信息（仅限ACEBench子集）、真实答案（JSON格式）、子集类别、唯一标识符和索引。数据集还提供了评估脚本和相关的引用文献。

创建时间：

2025-12-23

原始信息汇总

SpeechFCEval 数据集概述

数据集简介

SpeechFCEval 是一个基于语音的函数调用基准测试数据集集合。它构建自现有的开源文本数据集以及构建的智能交互场景，涵盖英语和中文，包含单函数和并行函数调用案例。

数据集子集详情

子集名称	语言	音频类型	函数调用模式	数据量	数据来源	类别
SpeechFC-BFCL-Single	英语	TTS	单函数	578	BFCL	`simple_python`, `multiple`
SpeechFC-BFCL-Parallel	英语	TTS	并行函数	372	BFCL	`parallel`, `parallel_multiple`
SpeechFC_SmartInteract	中文	TTS	单函数	668	智能交互场景	`smart_interact (54 tools)`
SpeechFC_ACEBench_Single	中文	人声	单函数	208	ACEBench	`normal_single_turn_single_function`, `normal_atom`, `normal_similar_api`
SpeechFC_ACEBench_Parallel	中文	人声	并行函数	88	ACEBench	`normal_single_turn_parallel_function`

数据格式

每个数据样本包含以下字段：

utterance: 用户的口语查询或指令（转录文本）。
file_name: 对应 WAV 音频文件的文件名。
function: JSON 格式。该示例的候选工具列表。根据子集不同，可能包含单个或多个候选（包括并行调用情况）。
time: 时间信息（仅存在于源自 ACEBench 的子集中）。
ground_truth: JSON 格式。用于评估的黄金答案（即期望调用的函数及其参数）。
category: 子集名称，表明该示例的来源。
dataset_key: 示例的唯一标识符，与关联的 WAV 音频文件名匹配（即 {dataset_key}.wav）。
index: 示例在子集中的索引，从 0 开始。

评估方法

评估细节请参考 SpeechFCEval 评估脚本（https://github.com/FunAudioLLM/SpeechFCEval）。

BFCL 子集（SpeechFC-BFCL-Single, SpeechFC-BFCL-Parallel）：基于 BFCL 评估脚本（https://github.com/ShishirPatil/gorilla/tree/main/berkeley-function-call-leaderboard/bfcl_eval）。
SmartInteract 子集（SpeechFC_SmartInteract）：复用 BFCL 评估脚本。
ACEBench 子集（SpeechFC_ACEBench_Single, SpeechFC_ACEBench_Parallel）：基于 ACEBench 评估脚本（https://github.com/chenchen0103/ACEBench/tree/main/model_eval）。

许可与引用

许可证：Apache-2.0
语言：中文、英语
规模类别：n<1K
标签：音频、文本

数据集构建基于并感谢 BFCL（Gorilla, Berkeley Function Calling Leaderboard）和 ACEBench 的作者及社区。请尊重原始数据源的许可证和使用条款。相关引用文献见 README 原文。

搜集汇总

数据集介绍

构建方式

SpeechFCEval数据集的构建融合了多源异构数据资源与精心设计的交互场景。该数据集主要基于两个核心来源：一是现有的开源文本数据集，如BFCL（伯克利函数调用排行榜）和ACEBench，通过文本到语音转换技术生成了对应的音频样本；二是专门构建的智能交互场景，模拟真实世界中的语音指令与工具调用需求。构建过程涵盖了英语和中文两种语言，并区分了单函数调用与并行函数调用两种模式，确保了数据在语言和功能上的多样性。音频类型包括合成语音与真人录音，进一步增强了数据集的真实性与适用性。

特点

SpeechFCEval数据集在语音函数调用评估领域展现出鲜明的特色。其核心特征在于将传统的文本函数调用任务扩展至语音模态，为评估语音大模型或语音助手的工具使用能力提供了基准。数据集包含多个子集，分别源自BFCL、ACEBench及自建的智能交互场景，覆盖了从简单计算到复杂并行调用的广泛类别。每个数据样本均提供了用户语音转录文本、对应的音频文件、候选工具列表以及标准答案，结构清晰完整。特别地，数据集中文英文兼备，且包含合成与真人语音，为跨语言、跨语音类型的模型评估创造了条件。

使用方法

使用SpeechFCEval数据集进行模型评估，需遵循其提供的标准化流程。研究者首先需要加载数据集，获取包含语音文件路径、用户话语、候选函数及标准答案的结构化数据。评估时，模型需接收语音输入或对应的转录文本，并输出其预测的函数调用结果。数据集配套了详细的评估脚本，这些脚本源自BFCL和ACEBench的原始评估框架，能够自动比对模型输出与标准答案，在工具选择、参数提取等维度计算准确率等指标。用户可根据研究重点，选择特定子集（如中文智能交互或英文并行调用）进行针对性测试，以全面衡量模型在语音场景下的工具调用性能。

背景与挑战

背景概述

在人工智能与语音交互技术深度融合的背景下，语音功能调用（Speech Function Calling）作为新兴研究方向，旨在使模型能够直接理解语音指令并执行相应的工具或API调用。SpeechFCEval数据集应运而生，其构建依托于BFCL（伯克利函数调用排行榜）与ACEBench等现有文本基准，并创新性地融入了智能交互场景。该数据集由相关研究团队于近期创建，核心研究问题聚焦于评估语言模型在跨模态（语音到文本）情境下的工具学习与函数调用能力，尤其关注中英文双语环境以及单功能与并行功能调用模式。它的出现为语音驱动智能体系统的性能评测提供了标准化基准，推动了多模态工具学习领域的发展。

当前挑战

SpeechFCEval数据集所针对的领域挑战在于，如何准确评估模型从语音指令中解析复杂意图、并精准映射到结构化函数调用的能力，这涉及语音识别、语义理解与工具选择的跨模态对齐问题。在构建过程中，数据集面临多重挑战：其一，需将现有文本函数调用数据集（如BFCL、ACEBench）高质量地转化为语音形式，同时保持标注的一致性与逻辑完整性；其二，设计并构建新颖的智能交互场景，以覆盖真实应用中多样化的工具使用案例；其三，处理中英双语数据在语音合成、口音与语义表达上的差异性，确保评估的公平性与广泛适用性。

常用场景

经典使用场景

在语音交互与智能代理研究领域，SpeechFCEval数据集为评估语音驱动的函数调用能力提供了标准化基准。该数据集整合了单函数与并行函数调用场景，涵盖中英文语音指令，常用于测试端到端语音语言模型在解析用户口语查询、准确匹配候选工具并生成结构化参数方面的性能。研究人员通过该数据集能够系统评估模型在复杂多轮对话或即时工具调用任务中的鲁棒性与泛化能力，为语音界面下的智能助手开发奠定实验基础。

衍生相关工作

SpeechFCEval的构建借鉴并扩展了多个经典工作，如基于BFCL（Berkeley Function Calling Leaderboard）的评估框架与ACEBench的工具学习基准。相关衍生研究包括Gorilla模型在API调用方面的探索，以及ACEBench在工具学习竞赛中的评估体系。这些工作共同丰富了语音函数调用的方法论，催生了如语音增强的智能代理、跨模态工具学习模型等创新方向，为后续研究提供了坚实的理论基础与实验范式。

数据集最近研究