ToolACE

Hugging Face2024-09-04 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Team-ACE/ToolACE

下载链接

链接失效反馈

官方服务：

资源简介：

ToolACE是一个自动化的智能管道，旨在生成准确、复杂和多样化的工具学习数据。它通过一个新颖的自进化合成过程来策划一个包含26,507个多样化API的全面API池。对话是通过多个代理之间的相互作用生成的，这些代理遵循一个形式化的思考过程。为了确保数据准确性，我们实施了一个结合基于规则和基于模型的双重验证系统。该数据集的模型在功能调用排行榜上取得了显著成绩。

ToolACE is an automated intelligent pipeline designed to generate accurate, complex, and diverse tool learning data. It curates a comprehensive API pool encompassing 26,507 diverse APIs through a novel self-evolving synthesis process. Dialogues are generated via interactions among multiple agents that follow a formalized thinking process. To ensure data accuracy, a dual validation system combining rule-based and model-based methods is implemented. Models trained on this dataset have achieved remarkable results on function call leaderboards.

创建时间：

2024-08-21

原始信息汇总

ToolACE 数据集概述

基本信息

许可证：Apache 2.0
任务类别：文本生成
语言：英语、中文
标签：合成、工具
数据规模：10K<n<100K

描述

ToolACE 是一个自动代理流水线，旨在生成准确、复杂和多样化的工具学习数据。该数据集利用了一种新颖的自进化合成过程，策划了一个包含 26,507 个多样化 API 的综合 API 池。通过多个代理之间的交互，并遵循形式化的思考过程，进一步生成对话。为了确保数据准确性，我们实施了一个结合规则和模型检查的双层验证系统。

引用

如果您认为 ToolACE 对您的工作有用，请引用我们的论文：

@misc{liu2024toolacewinningpointsllm, title={ToolACE: Winning the Points of LLM Function Calling}, author={Weiwen Liu and Xu Huang and Xingshan Zeng and Xinlong Hao and Shuai Yu and Dexun Li and Shuai Wang and Weinan Gan and Zhengying Liu and Yuanqing Yu and Zezhong Wang and Yuxian Wang and Wu Ning and Yutai Hou and Bin Wang and Chuhan Wu and Xinzhi Wang and Yong Liu and Yasheng Wang and Duyu Tang and Dandan Tu and Lifeng Shang and Xin Jiang and Ruiming Tang and Defu Lian and Qun Liu and Enhong Chen}, year={2024}, eprint={2409.00920}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2409.00920}, }

搜集汇总

数据集介绍

构建方式

ToolACE数据集通过自动化的代理管道构建，旨在生成准确、复杂且多样化的工具学习数据。其核心在于一种新颖的自进化合成过程，该过程精心策划了一个包含26,507个多样化API的综合API池。通过多个代理之间的交互，结合形式化的思维过程生成对话。为确保数据的准确性，ToolACE采用了基于规则和基于模型的双层验证系统，有效提升了数据的可靠性。

特点

ToolACE数据集的特点在于其多样性和复杂性。它不仅涵盖了广泛的API调用场景，还通过多代理交互生成的对话数据，模拟了真实世界中的复杂工具使用情境。数据集的语言涵盖中英文，适用于跨语言研究。此外，其规模介于10K到100K之间，提供了丰富的训练样本，能够有效支持大语言模型在工具调用任务中的性能提升。

使用方法

ToolACE数据集主要用于训练和评估大语言模型在工具调用任务中的表现。用户可以通过Hugging Face平台访问该数据集，并将其用于微调模型。微调后的模型在功能调用排行榜（BFCL）上表现出色，展示了ToolACE在实际应用中的潜力。研究人员还可以参考相关论文，深入了解数据集的构建细节及其在工具学习领域的应用价值。

背景与挑战

背景概述

ToolACE数据集由Weiwen Liu等研究人员于2024年提出，旨在解决大语言模型（LLM）在工具调用任务中的准确性和多样性问题。该数据集通过自动化的代理管道生成高质量的工具学习数据，涵盖了26,507个多样化的API，并通过多代理交互和形式化思维过程生成对话。ToolACE的独特之处在于其自我进化合成过程，结合了规则和模型的双层验证系统，确保了数据的准确性。该数据集在功能调用领域具有重要影响力，特别是在提升LLM的工具调用能力方面，已在BFCL（Berkeley Function Calling Leaderboard）上取得了显著成绩。

当前挑战

ToolACE数据集在构建过程中面临多重挑战。首先，工具调用任务的复杂性要求数据集必须涵盖广泛的API和多样化的使用场景，这对数据生成和验证提出了极高的要求。其次，确保数据的准确性和多样性需要设计复杂的自我进化合成过程，并结合规则和模型的双层验证系统，这对计算资源和算法设计提出了巨大挑战。此外，如何通过多代理交互生成自然且符合逻辑的对话，同时避免数据偏差和噪声，也是构建过程中的关键难题。这些挑战不仅体现在数据生成阶段，还贯穿于数据验证和模型微调的整个流程中。

常用场景

经典使用场景

ToolACE数据集在自然语言处理领域，尤其是工具学习（Tool Learning）任务中展现了其独特的价值。通过自动化的代理管道，ToolACE能够生成精确、复杂且多样化的工具学习数据，这些数据广泛应用于大语言模型（LLM）的功能调用任务中。其经典使用场景包括模型微调、功能调用性能评估以及工具学习的基准测试。

解决学术问题

ToolACE数据集通过其独特的自进化合成过程，解决了工具学习数据生成中的多样性和复杂性难题。其双层的验证系统确保了数据的准确性，为学术界提供了一个高质量的工具学习数据集。这一数据集不仅推动了工具学习领域的研究进展，还为功能调用任务的性能提升提供了坚实的基础。

衍生相关工作

ToolACE数据集的发布催生了一系列相关研究和工作。例如，基于ToolACE微调的ToolACE-8B模型在功能调用任务中表现出色，成为该领域的标杆之一。此外，ToolACE数据集还激发了更多关于工具学习数据生成和功能调用任务优化的研究，推动了该领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集