func_calls

Hugging Face2025-03-23 更新2025-03-24 收录

下载链接：

https://huggingface.co/datasets/retrain-pipelines/func_calls

下载链接

链接失效反馈

官方服务：

资源简介：

retrain-pipelines Function Calling数据集是一个包含函数调用信息的NLP数据集，分为两个配置：continued_pre_training和supervised_finetuning。continued_pre_training配置用于添加内在知识，而supervised_finetuning配置是一个问答文本数据集。数据集来源于Salesforce/xlam-function-calling-60k和lighteval/natural_questions_clean，语言为英文，适用于问题回答、文本生成和文本到文本生成等任务。

retrain-pipelines 函数调用（Function Calling）数据集是一类包含函数调用相关信息的自然语言处理（Natural Language Processing，NLP）数据集，设有两类配置：continued_pre_training与supervised_finetuning。其中continued_pre_training配置用于注入内在领域知识，supervised_finetuning配置则为问答类文本数据集。该数据集源自Salesforce/xlam-function-calling-60k与lighteval/natural_questions_clean两个数据集，语种为英语，可适配问答、文本生成及文本到文本生成等多种下游任务。

创建时间：

2025-03-23

搜集汇总

数据集介绍

构建方式

func_calls数据集基于两个主要来源构建：Salesforce的xlam-function-calling-60k和lighteval的natural_questions_clean。数据集通过retrain-pipelines工具进行增强和丰富，数据增强率为4.5%，数据丰富率为10.0%。数据集包含两个配置：continued_pre_training和supervised_finetuning，分别用于模型预训练和微调。

特点

func_calls数据集的特点在于其专注于函数调用任务，涵盖了从API调用到自然语言问答的多种场景。数据集中的条目详细描述了函数的名称、描述、参数及其类型和默认值，适用于文本生成和问答系统等任务。此外，数据集的问答部分仅包含工具调用，可能为空列表，这为模型提供了灵活的学习空间。

使用方法

func_calls数据集的使用方法主要分为两个阶段：预训练和微调。在预训练阶段，使用continued_pre_training配置来增强模型的内在知识。在微调阶段，使用supervised_finetuning配置进行监督学习，通过问答对的形式训练模型。数据集支持多种任务类别，如问答、文本生成和文本到文本生成，适用于大型语言模型的训练和评估。

背景与挑战

背景概述

func_calls数据集由Salesforce和lighteval等机构于2025年发布，旨在支持大语言模型（LLM）在函数调用任务中的应用。该数据集基于Xlam Function Calling 60k和Natural Questions Clean等源数据集构建，专注于问答、文本生成及文本到文本生成任务。其核心研究问题在于如何通过预训练和微调提升模型在函数调用场景中的表现，特别是在代码生成和工具调用方面的能力。该数据集为LLM代理的开发提供了重要支持，推动了自然语言处理与代码生成领域的交叉研究。

当前挑战

func_calls数据集面临的挑战主要集中在两个方面。首先，函数调用任务本身具有高度复杂性，要求模型能够准确理解自然语言指令并生成相应的代码或工具调用，这对模型的语义理解和逻辑推理能力提出了极高要求。其次，在数据集构建过程中，如何确保数据的多样性和质量是一大难题。尽管通过数据增强和丰富提升了数据量，但如何平衡合成数据与真实数据的比例，以及如何避免噪声数据的引入，仍需进一步优化。此外，数据集的跨领域特性也增加了标注和验证的难度。

常用场景

经典使用场景

在自然语言处理领域，func_calls数据集广泛应用于函数调用生成任务。该数据集通过提供丰富的函数描述和参数信息，支持模型在代码生成和自动化工具调用方面的训练。特别是在大语言模型（LLM）的预训练和微调过程中，func_calls数据集能够显著提升模型对函数调用语义的理解能力，从而生成更准确的代码片段。

衍生相关工作

func_calls数据集衍生了一系列经典研究工作，特别是在大语言模型和代码生成领域。例如，基于该数据集的研究推动了LLM在函数调用生成任务中的性能提升，相关成果被广泛应用于智能编程助手和自动化工具调用系统的开发。此外，该数据集还为代码生成模型的预训练和微调提供了重要支持，推动了自然语言处理与软件工程的交叉研究。

数据集最近研究