ToolSelect

github2024-03-12 更新2024-05-31 收录

下载链接：

https://github.com/facebookresearch/ToolVerifier

下载链接

链接失效反馈

官方服务：

资源简介：

ToolSelect data is synthetic training data generated for tool selection task using Llama-2 70B and Llama-2-Chat-70B. It consists of 555 samples corresponding to 173 tools. Each training sample is composed of a user instruction, a candidate set of tools that includes the ground truth tool, and a reasoning note elucidating the correct choice of tool.

ToolSelect数据集是面向工具选择任务生成的合成训练数据，由Llama-2 70B与Llama-2-Chat-70B模型生成。该数据集共包含555条样本，对应173个工具。每条训练样本由用户指令、包含真值工具（ground truth tool）的候选工具集，以及阐释正确工具选择逻辑的推理说明三部分组成。

创建时间：

2024-03-12

原始信息汇总

数据集概述

名称: ToolSelect

目的: 用于微调Llama-2 70B模型，以进行工具选择任务。

数据组成:

样本数量: 555个样本
工具数量: 173种工具
样本结构: 每个训练样本包括用户指令、包含正确工具的候选工具集以及解释正确工具选择的推理笔记。

数据示例:

用户指令: 10 reviews for "Harry Potter and the Philosophers Stone". 工具选择:

Bank Account Number generator
Train Ticket Purchase
The Cricket Score tool
Book Review
Grocery Shopping with discounts
Stock Price at location and date
Movie Recommendation
News 推理: 推荐使用Book Review工具，因为用户请求特定书籍的评论，该工具专门提供特定书籍的顶级评论。行动: CALLTOOL["Book Review"]

文件:

train.csv: 包含训练样本的文件。
tools.csv: 包含合成工具的名称和描述的文件。

数据生成: 详细的数据生成过程可参考论文的第2.1节。

引用信息:

@article{mekala2024toolverifier, title={TOOLVERIFIER: Generalization to New Tools via Self-Verification}, author={Mekala, Dheeraj and Weston, Jason and Lanchantin, Jack and Raileanu, Roberta and Lomeli, Maria and Shang, Jingbo and Dwivedi-Yu, Jane}, journal={arXiv preprint arXiv:2402.14158}, year={2024} }

搜集汇总

数据集介绍

构建方式

ToolSelect数据集的构建基于Llama-2 70B和Llama-2-Chat-70B模型，通过合成数据生成技术为工具选择任务量身定制。该数据集包含555个样本，涵盖173种工具，每个样本由用户指令、包含真实工具的工具候选集以及解释正确工具选择的推理笔记组成。数据生成过程详细记录在相关论文的第2.1节中，确保了数据的科学性和可靠性。

使用方法

ToolSelect数据集的使用方法相对直观，用户可以通过加载`train.csv`和`tools.csv`文件获取训练样本和工具描述。`train.csv`文件包含了所有训练样本，每个样本包括用户指令、工具候选集和推理笔记；`tools.csv`文件则提供了所有工具的名称和详细描述。用户可以根据需要将这些数据输入到模型中进行微调，或用于评估模型在工具选择任务上的性能。数据集的详细使用说明可参考相关论文和GitHub页面。

背景与挑战

背景概述

ToolSelect数据集由Dheeraj Mekala等研究人员于2024年创建，旨在支持工具选择任务的模型微调。该数据集基于Llama-2 70B和Llama-2-Chat-70B模型生成，包含555个样本，涵盖173种工具。每个样本由用户指令、候选工具集及解释正确工具选择的推理笔记组成。该数据集的核心研究问题在于如何通过自验证机制提升模型在新工具上的泛化能力。ToolSelect的发布为自然语言处理领域中的工具选择任务提供了重要的数据支持，推动了相关研究的发展。

当前挑战

ToolSelect数据集在构建过程中面临多重挑战。首先，工具选择任务本身具有复杂性，模型需要准确理解用户指令并从多个候选工具中选出最合适的工具，这对模型的语义理解和推理能力提出了较高要求。其次，数据集的生成依赖于Llama-2模型的合成能力，如何确保生成数据的多样性和准确性是一个关键问题。此外，数据集中包含的工具描述和推理笔记需要高度一致，以避免误导模型训练。这些挑战不仅影响了数据集的构建质量，也对后续模型的性能优化提出了更高的要求。

常用场景

经典使用场景

ToolSelect数据集在自然语言处理领域中被广泛应用于工具选择任务的模型微调。通过提供用户指令、候选工具集以及推理笔记，该数据集帮助模型学习如何根据具体需求选择最合适的工具。这种场景在智能助手、自动化任务处理等应用中尤为常见，能够显著提升模型在实际任务中的表现。

解决学术问题

ToolSelect数据集解决了模型在面对新工具时泛化能力不足的问题。通过提供多样化的工具选择样本和详细的推理过程，该数据集使模型能够在面对未见过的工具时，依然能够做出合理的选择。这一突破对于提升模型的适应性和实用性具有重要意义，推动了智能系统在复杂任务中的应用。

实际应用

在实际应用中，ToolSelect数据集被广泛用于智能助手和自动化系统的开发。例如，在电商平台中，智能助手可以根据用户的需求自动选择最合适的工具来获取商品评论或推荐相关产品。这种应用不仅提高了用户体验，还显著提升了系统的效率和准确性。

数据集最近研究