Function-Call

Hugging Face2026-01-14 更新2026-01-15 收录

下载链接：

https://huggingface.co/datasets/Scicom-intl/Function-Call

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，用于生成合成函数和多轮函数调用，使用开源模型。数据集包含不同的配置，如扩展函数、多语言示例等，每个配置具有特定的特征和训练分割。

创建时间：

2026-01-11

原始信息汇总

Function Call 数据集概述

数据集基本信息

数据集地址：https://huggingface.co/datasets/Scicom-intl/Function-Call
数据集描述：使用开源模型生成合成函数和多轮函数调用。

数据集配置与结构

数据集包含5个配置（config），每个配置仅包含训练集（train split）。

配置一：extended_functions

特征（Features）：
- function：字符串类型
- examples：字符串类型
- domain：字符串类型
- complexity：字符串类型
数据统计：
- 训练集样本数量：10,162
- 训练集大小：62,248,390 字节
- 下载大小：25,453,092 字节
- 数据集大小：62,248,390 字节
数据文件路径：extended_functions/train-*

配置二：extended_functions_v2

特征（Features）：
- function：字符串类型
- examples：字符串类型
- domain：字符串类型
- complexity：字符串类型
数据统计：
- 训练集样本数量：13,234
- 训练集大小：80,419,659 字节
- 下载大小：32,982,109 字节
- 数据集大小：80,419,659 字节
数据文件路径：extended_functions_v2/train-*

配置三：functions

特征（Features）：
- function：字符串类型
- examples：字符串类型
- domain：字符串类型
- complexity：字符串类型
数据统计：
- 训练集样本数量：1,060
- 训练集大小：9,321,411 字节
- 下载大小：3,647,738 字节
- 数据集大小：9,321,411 字节
数据文件路径：functions/train-*

配置四：functions_multilingual_examples

特征（Features）：
- ms-en：字符串类型
- ta：字符串类型
- zh：字符串类型
- function：字符串类型
数据统计：
- 训练集样本数量：10,804
- 训练集大小：157,613,610 字节
- 下载大小：58,424,271 字节
- 数据集大小：157,613,610 字节
数据文件路径：functions_multilingual_examples/train-*

配置五：functions_multilingual_examples_v2

特征（Features）：
- ms-en：字符串类型
- ta：字符串类型
- zh：字符串类型
- function：字符串类型
数据统计：
- 训练集样本数量：12,345
- 训练集大小：177,441,448 字节
- 下载大小：65,912,667 字节
- 数据集大小：177,441,448 字节
数据文件路径：functions_multilingual_examples_v2/train-*

搜集汇总

数据集介绍

构建方式

在人工智能领域，函数调用数据集对于提升模型理解与执行结构化指令的能力至关重要。Function-Call数据集通过开源模型生成合成函数及多轮函数调用对话，构建过程涉及多个配置版本，如基础版、扩展版及其多语言示例变体，每个版本均包含训练分割，数据条目从千余至万余不等，确保了数据规模与多样性的梯度覆盖。

特点

该数据集的核心特征体现在其多维度的结构化设计上，每个样本均包含函数定义、示例调用、所属领域及复杂度标注，这为模型提供了丰富的上下文信息。特别值得注意的是，多语言配置版本整合了马来语-英语、泰米尔语和中文的示例，支持跨语言函数调用任务的探索，而不同版本间的规模扩展则反映了数据在复杂性与覆盖面上的持续优化。

使用方法

研究人员可利用该数据集训练或评估语言模型在函数调用场景下的性能，例如通过加载特定配置（如functions_multilingual_examples）来获取多语言示例，进而分析模型对结构化指令的解析与生成能力。数据集以标准格式存储，支持通过HuggingFace库直接访问，便于集成到机器学习流程中，用于微调、零样本学习或跨语言迁移实验。

背景与挑战

背景概述

在人工智能与自然语言处理领域，函数调用作为连接语言模型与外部工具或API的关键技术，其研究对于提升模型的实际应用能力至关重要。Function-Call数据集由Scitix.ai等机构的研究人员创建，旨在通过开源模型生成合成函数及多轮函数调用数据，以解决模型在理解和执行复杂指令时面临的泛化与准确性难题。该数据集涵盖了多种配置版本，包括扩展函数与多语言示例，为模型训练提供了丰富的结构化数据资源，显著推动了对话系统与工具增强型语言模型的发展。

当前挑战

该数据集致力于解决函数调用任务中的核心挑战，即如何使语言模型准确解析用户意图并生成正确的函数调用序列，尤其在多轮交互与跨领域场景下保持一致性。构建过程中，挑战主要体现在合成数据的质量把控上，需确保生成的函数示例在逻辑合理性与多样性之间取得平衡，同时多语言版本的构建还需克服语言差异带来的语义对齐困难，以及数据规模扩展时保持标注准确性的技术瓶颈。

常用场景

经典使用场景

在自然语言处理与代码生成领域，Function-Call数据集为模型训练提供了丰富的函数调用示例，涵盖多种编程语言和复杂度的场景。该数据集通过合成函数及其调用序列，支持模型学习如何根据自然语言指令生成准确的代码片段，尤其在多轮对话中模拟真实开发环境下的交互过程。这一经典使用场景促进了代码生成模型在理解用户意图、处理复杂逻辑方面的能力提升，为自动化编程工具的开发奠定了数据基础。

衍生相关工作

围绕Function-Call数据集，衍生出多项经典研究工作，包括基于多语言函数调用的代码翻译模型和上下文感知的代码生成框架。这些工作利用数据集中丰富的示例和领域标注，开发了新型神经网络架构，提升了模型在跨领域代码合成中的准确性与鲁棒性。此外，该数据集还激发了开源社区对自动化测试用例生成和代码重构工具的研究，进一步扩展了其在软件工程实践中的应用边界。

数据集最近研究