apigen-function-calling

Hugging Face2024-10-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/argilla/apigen-function-calling

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是[argilla/Synth-APIGen-v0.1](https://huggingface.co/datasets/argilla/Synth-APIGen-v0.1)和[Salesforce/xlam-function-calling-60k](https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k)的合并，包含超过100K个遵循APIGen配方的函数调用示例。数据集包含多个特征，如answers、query、id、tools、func_name、func_desc、hash_id、model_name和origin。数据集分为训练集，包含109402个样本。数据集适用于文本生成任务，语言为英语，标签包括合成、函数调用、代码和distilabel。数据集大小在100K到1M之间。

创建时间：

2024-10-10

原始信息汇总

数据集概述

基本信息

数据集名称: argilla/apigen-function-calling
数据集大小: 165,059,162 字节
下载大小: 60,235,594 字节
语言: 英语 (en)
许可证: CC BY 4.0
任务类别: 文本生成 (text-generation)
标签: 合成数据 (synthetic), 函数调用 (function-calling), 代码 (code), distilabel
数据集规模: 100K < n < 1M

数据集结构

特征 (Features)

answers: 字符串 (string)
query: 字符串 (string)
id: 整数 (int64)
tools: 字符串 (string)
func_name: 字符串 (string)
func_desc: 字符串 (string)
hash_id: 字符串 (string)
model_name: 字符串 (string)
origin: 字符串 (string)

数据分割 (Splits)

train: 包含 109,402 个样本，占用 165,059,162 字节

配置 (Configs)

default: 包含训练数据文件，路径为 data/train-*

数据集来源

该数据集是 argilla/Synth-APIGen-v0.1 和 Salesforce/xlam-function-calling-60k 的合并，包含超过 100K 的函数调用示例。

示例

json { "answers": "[{"name": "split_list", "arguments": {"lst": [10, 20, 30, 40, 50, 60], "chunk_size": 4}}, {"name": "binary_search", "arguments": {"arr": [10, 20, 30, 40, 50, 60], "target": 30}}]", "query": "Please split the list [10, 20, 30, 40, 50, 60] into chunks of size 4, and also find the index of 30 in this list.", "id": 1234, "tools": "[{"name": "split_list", "description": "Splits a list into chunks of a specified size.", "parameters": {"lst": {"description": "The input list.", "type": "List"}, "chunk_size": {"description": "The size of each chunk.", "type": "int"}}}, {"name": "binary_search", "description": "Performs binary search on a sorted list to find the index of a target value.", "parameters": {"arr": {"description": "The sorted list of integers.", "type": "List[int]"}, "target": {"description": "The target value to search for.", "type": "int"}}}]", "func_name": null, "func_desc": null, "hash_id": null, "model_name": null, "origin": "xLAM" }

搜集汇总

数据集介绍

构建方式

apigen-function-calling数据集是通过合并argilla/Synth-APIGen-v0.1和Salesforce/xlam-function-calling-60k两个数据集构建而成，涵盖了超过10万个函数调用示例。该数据集的构建遵循APIGen的生成流程，确保了数据的多样性和可验证性。每个示例包含了查询、工具描述、函数名称及描述等关键信息，并通过哈希ID和模型名称等字段进行标识。

特点

该数据集的特点在于其丰富的函数调用示例，涵盖了多种编程场景和工具使用情境。每个示例不仅包含了具体的查询和工具描述，还提供了函数的名称和详细描述，便于用户理解和应用。此外，数据集还通过哈希ID和模型名称等字段，确保了数据的唯一性和可追溯性。这些特点使得该数据集在函数调用生成和代码理解任务中具有较高的实用价值。

使用方法

使用apigen-function-calling数据集时，用户可以通过运行prepare_for_sft.py脚本对数据进行预处理，以便进行监督式微调（SFT）。用户可以根据需要修改提示词、系统提示等内容，使数据集适应特定的训练需求。该数据集特别适用于训练和评估函数调用生成模型，帮助提升模型在代码生成和理解任务中的表现。

背景与挑战

背景概述

apigen-function-calling数据集由Argilla和Salesforce联合创建，旨在为函数调用任务提供多样化的训练数据。该数据集结合了argilla/Synth-APIGen-v0.1和Salesforce/xlam-function-calling-60k两个子集，生成了超过10万条函数调用示例，涵盖了广泛的代码生成和函数调用场景。其核心研究问题在于如何通过自动化流程生成可验证且多样化的函数调用数据集，以支持大规模语言模型在代码生成和函数调用任务中的微调与优化。该数据集的发布为代码生成领域的研究提供了重要的数据支持，推动了自动化编程工具的发展。

当前挑战

apigen-function-calling数据集在构建过程中面临多重挑战。首先，函数调用任务的多样性要求数据集必须涵盖广泛的代码场景和函数类型，这对数据生成流程的复杂性和可扩展性提出了较高要求。其次，确保生成数据的准确性和可验证性是一个关键挑战，尤其是在自动化生成过程中，如何避免错误代码或无效函数调用成为难点。此外，数据集需要与不同语言模型的训练需求兼容，这对数据格式的统一性和适配性提出了额外要求。这些挑战不仅影响了数据集的构建效率，也对其在实际应用中的效果产生了深远影响。

常用场景

经典使用场景

在自然语言处理领域，`apigen-function-calling`数据集被广泛应用于函数调用任务的模型训练与评估。该数据集通过提供丰富的函数调用示例，帮助研究人员构建能够理解并执行复杂指令的智能系统。特别是在代码生成和自动化任务中，该数据集为模型提供了多样化的函数调用场景，使其能够更好地理解和生成符合用户需求的代码片段。

实际应用

在实际应用中，`apigen-function-calling`数据集被广泛用于开发智能编程助手和自动化代码生成工具。例如，开发者可以利用该数据集训练模型，使其能够根据自然语言指令自动生成相应的代码片段，从而提高编程效率。此外，该数据集还可用于构建智能客服系统，帮助用户通过自然语言指令完成复杂的操作，如数据分析和任务自动化等。

衍生相关工作

基于`apigen-function-calling`数据集，研究人员开发了多个经典的函数调用模型和工具。例如，`argilla/Llama-3.2-1B-Instruct-APIGen-FC-v0.1`模型便是利用该数据集进行训练的，其在函数调用任务中表现出色。此外，该数据集还启发了多项关于自动化代码生成和智能助手的研究，推动了自然语言处理与编程语言处理领域的交叉融合。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集