ToolACE|API生成数据集|智能对话系统数据集

huggingface2024-09-04 更新2024-12-12 收录

API生成

智能对话系统

下载链接：

https://huggingface.co/datasets/Team-ACE/ToolACE

下载链接

链接失效反馈

资源简介：

ToolACE是一个自动化的智能管道，旨在生成准确、复杂和多样化的工具学习数据。它通过一个新颖的自进化合成过程来策划一个包含26,507个多样化API的全面API池。对话是通过多个代理之间的相互作用生成的，这些代理遵循一个形式化的思考过程。为了确保数据准确性，我们实施了一个结合基于规则和基于模型的双重验证系统。该数据集的模型在功能调用排行榜上取得了显著成绩。

创建时间：

2024-08-21

原始信息汇总

ToolACE 数据集概述

基本信息

许可证：Apache 2.0
任务类别：文本生成
语言：英语、中文
标签：合成、工具
数据规模：10K<n<100K

描述

ToolACE 是一个自动代理流水线，旨在生成准确、复杂和多样化的工具学习数据。该数据集利用了一种新颖的自进化合成过程，策划了一个包含 26,507 个多样化 API 的综合 API 池。通过多个代理之间的交互，并遵循形式化的思考过程，进一步生成对话。为了确保数据准确性，我们实施了一个结合规则和模型检查的双层验证系统。

引用

如果您认为 ToolACE 对您的工作有用，请引用我们的论文：

@misc{liu2024toolacewinningpointsllm, title={ToolACE: Winning the Points of LLM Function Calling}, author={Weiwen Liu and Xu Huang and Xingshan Zeng and Xinlong Hao and Shuai Yu and Dexun Li and Shuai Wang and Weinan Gan and Zhengying Liu and Yuanqing Yu and Zezhong Wang and Yuxian Wang and Wu Ning and Yutai Hou and Bin Wang and Chuhan Wu and Xinzhi Wang and Yong Liu and Yasheng Wang and Duyu Tang and Dandan Tu and Lifeng Shang and Xin Jiang and Ruiming Tang and Defu Lian and Qun Liu and Enhong Chen}, year={2024}, eprint={2409.00920}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2409.00920}, }

AI搜集汇总

数据集介绍

构建方式

ToolACE数据集通过自动化的代理管道构建，旨在生成准确、复杂且多样化的工具学习数据。其核心在于一种新颖的自进化合成过程，该过程精心策划了一个包含26,507个多样化API的综合API池。通过多个代理之间的交互，结合形式化的思维过程生成对话。为确保数据的准确性，ToolACE采用了基于规则和基于模型的双层验证系统，有效提升了数据的可靠性。

特点

ToolACE数据集的特点在于其多样性和复杂性。它不仅涵盖了广泛的API调用场景，还通过多代理交互生成的对话数据，模拟了真实世界中的复杂工具使用情境。数据集的语言涵盖中英文，适用于跨语言研究。此外，其规模介于10K到100K之间，提供了丰富的训练样本，能够有效支持大语言模型在工具调用任务中的性能提升。

使用方法

ToolACE数据集主要用于训练和评估大语言模型在工具调用任务中的表现。用户可以通过Hugging Face平台访问该数据集，并将其用于微调模型。微调后的模型在功能调用排行榜（BFCL）上表现出色，展示了ToolACE在实际应用中的潜力。研究人员还可以参考相关论文，深入了解数据集的构建细节及其在工具学习领域的应用价值。

背景与挑战

背景概述

ToolACE数据集由Weiwen Liu等研究人员于2024年提出，旨在解决大语言模型（LLM）在工具调用任务中的准确性和多样性问题。该数据集通过自动化的代理管道生成高质量的工具学习数据，涵盖了26,507个多样化的API，并通过多代理交互和形式化思维过程生成对话。ToolACE的独特之处在于其自我进化合成过程，结合了规则和模型的双层验证系统，确保了数据的准确性。该数据集在功能调用领域具有重要影响力，特别是在提升LLM的工具调用能力方面，已在BFCL（Berkeley Function Calling Leaderboard）上取得了显著成绩。

当前挑战

ToolACE数据集在构建过程中面临多重挑战。首先，工具调用任务的复杂性要求数据集必须涵盖广泛的API和多样化的使用场景，这对数据生成和验证提出了极高的要求。其次，确保数据的准确性和多样性需要设计复杂的自我进化合成过程，并结合规则和模型的双层验证系统，这对计算资源和算法设计提出了巨大挑战。此外，如何通过多代理交互生成自然且符合逻辑的对话，同时避免数据偏差和噪声，也是构建过程中的关键难题。这些挑战不仅体现在数据生成阶段，还贯穿于数据验证和模型微调的整个流程中。

常用场景

经典使用场景

ToolACE数据集在自然语言处理领域，尤其是工具学习（Tool Learning）任务中展现了其独特的价值。通过自动化的代理管道，ToolACE能够生成精确、复杂且多样化的工具学习数据，这些数据广泛应用于大语言模型（LLM）的功能调用任务中。其经典使用场景包括模型微调、功能调用性能评估以及工具学习的基准测试。

解决学术问题

ToolACE数据集通过其独特的自进化合成过程，解决了工具学习数据生成中的多样性和复杂性难题。其双层的验证系统确保了数据的准确性，为学术界提供了一个高质量的工具学习数据集。这一数据集不仅推动了工具学习领域的研究进展，还为功能调用任务的性能提升提供了坚实的基础。

衍生相关工作

ToolACE数据集的发布催生了一系列相关研究和工作。例如，基于ToolACE微调的ToolACE-8B模型在功能调用任务中表现出色，成为该领域的标杆之一。此外，ToolACE数据集还激发了更多关于工具学习数据生成和功能调用任务优化的研究，推动了该领域的进一步发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

中文高质量大模型多轮对话SFT数据集

该数据集来源于晴数智慧LLM多领域超自然SFT多轮对话文本数据集。该数据集包含97184轮中文自然对话句子，涉及【家庭生活、教育医疗、军事战争、科学技术、气候环境、人文科学、商业经济、数码产品、体育竞技、休闲娱乐、衣食住行、艺术美术、政治法律、职业发展、宗教信仰】15个主题。领域覆盖多样，也可以单独抽取相关领域的数据进行领域SFT。本次开源的部分数据，由来自中国的644名不同ID的采集人独家贡献，北京晴数智慧科技有限公司进行授权采集。每组对话由两位采集人围绕一个主题展开，上下文对话与当前的内容逻辑相关。适用于训练大模型多轮对话 (back and forth conversation)、上下文逻辑推理能力，以及端到端对话大模型。

OpenDataLab 收录

MAV-VID, Drone-vs-Bird, Anti-UAV

本研究涉及三个数据集：MAV-VID、Drone-vs-Bird和Anti-UAV，总计包含241个视频，共计331,486张图像。这些数据集由杜伦大学创建，用于无人机视觉检测和跟踪的研究。数据集内容丰富，包括从地面和无人机搭载的摄像头捕获的图像，涵盖了多种环境和条件。创建过程中，数据集经过精心标注和处理，以确保数据质量。这些数据集主要用于评估和改进无人机检测和跟踪技术，特别是在复杂环境和动态场景中的应用。

arXiv 收录

Waymo Open Dataset

Waymo开放数据集由Waymo自动驾驶汽车在各种条件下收集的高分辨率传感器数据组成。我们公开发布这个数据集，以帮助研究社区在机器感知和自动驾驶技术方面取得进步。

github 收录

京东评论集合含标签（70k个）

包含手机，电脑，衣服，运动，母婴，玩具等

kaggle 收录