five

func_calls_ds

收藏
Hugging Face2025-03-15 更新2025-03-16 收录
下载链接:
https://huggingface.co/datasets/retrain-pipelines/func_calls_ds
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为retrain-pipelines Function Calling,包含两个配置:continued_pre_training和supervised_finetuning。continued_pre_training配置用于增加内在知识,包含函数名称、描述、参数等信息;supervised_finetuning配置是一个经典的问答文本数据集,答案中只包含工具调用。数据来源于Salesforce的Xlam Function Calling 60k数据集和lighteval的Natural Questions Clean数据集。

本数据集名为重训练流水线函数调用(retrain-pipelines Function Calling),包含两项配置:持续预训练(continued_pre_training)与监督微调(supervised_finetuning)。其中,持续预训练配置用于增强模型的内在知识储备,涵盖函数名称、功能描述、输入参数等相关信息;监督微调配置对应经典的问答文本数据集,其输出答案仅包含工具调用内容。本数据集的数据来源为Salesforce的Xlam 函数调用60k数据集(Xlam Function Calling 60k)与lighteval的自然问题清理版(Natural Questions Clean)数据集。
创建时间:
2025-03-09
搜集汇总
数据集介绍
main_image_url
构建方式
func_calls_ds数据集的构建采用了双配置策略,分别是continued_pre_training与supervised_finetuning。前者以增强内在知识为目标,后者遵循传统的问答文本数据集构建模式,仅在答案中包含工具调用信息。数据集的主要来源是Salesforce的Xlam Function Calling 60k和lighteval的Natural Questions Clean,通过数据增强与丰富策略,分别提升了4.5%和10.0%。
使用方法
用户可以根据具体的研究需求,选择适用的配置进行数据加载。对于continued_pre_training配置,可以直接利用提供的data.parquet文件进行训练;而对于supervised_finetuning配置,则需要使用train.parquet和validation.parquet文件进行训练和验证。数据集的使用需遵循相应的许可协议,确保合法合规。
背景与挑战
背景概述
func_calls_ds数据集,全称为retrain-pipelines Function Calling,是一款专注于函数调用任务的数据集。该数据集由Salesforce和lighteval团队共同构建,其核心研究问题是如何通过机器学习模型理解和生成函数调用相关的文本。该数据集在2025年3月15日发布版本0.7,采用cc-by-4.0协议开源,主要包含英语数据。其独特的贡献在于,数据集通过两种配置continued_pre_training和supervised_finetuning,提供了不同层面的数据利用方式,进而影响了相关领域对函数调用理解的研究方向和方法。
当前挑战
在研究领域问题方面,func_calls_ds数据集面临的挑战包括如何准确理解和生成复杂的函数调用序列,以及如何处理函数调用中的上下文信息。在构建过程中,挑战主要体现在数据的质量控制、多样性和规模的平衡,以及数据增强和富集技术的应用,这些都是确保数据集能够有效支撑模型训练和评估的关键因素。此外,由于数据集包含了工具调用的答案,可能存在空列表的情况,这为模型的鲁棒性提出了更高的要求。
常用场景
经典使用场景
func_calls_ds数据集,作为编程语言处理与函数调用相关的文本数据,其经典使用场景主要在于对代码中函数调用进行语义解析、代码补全以及生成式编程任务。该数据集通过提供丰富的函数调用示例,为研究者在机器学习领域对代码理解与生成任务提供了基础数据支持。
解决学术问题
该数据集有效解决了在程序理解、代码补全和代码生成等研究领域中,由于缺乏标准化和大规模数据集而导致的研究进展缓慢的问题。func_calls_ds的构建,使得研究者能够基于此数据集进行模型的训练和评估,推动了相关学术问题的研究,提高了学术研究的质量和效率。
实际应用
在实际应用中,func_calls_ds数据集可以被用于改进编程工具的智能化水平,例如在集成开发环境(IDE)中提供智能代码补全、代码片段生成以及错误检测等功能,从而提升软件开发效率,减少开发者的工作负担。
数据集最近研究
最新研究方向
在自然语言处理领域,func_calls_ds数据集的近期研究主要聚焦于函数调用知识的继续预训练和监督微调两大方向。该数据集通过结合了Salesforce的Xlam Function Calling 60k和lighteval的Natural Questions Clean两个数据源,为研究者在知识图谱、语言模型增强以及代码生成等前沿研究方向提供了丰富的资源。在继续预训练方向上,研究致力于提高语言模型对于函数调用知识的内在理解;而在监督微调方向上,则侧重于提升模型在实际问答任务中的性能表现,这些研究不仅推动了语言模型在技术文档理解上的应用,也为开发智能对话系统和自动化脚本编写工具提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作