MGToolBench

github2024-12-03 更新2024-12-19 收录

下载链接：

https://github.com/XiaoMi/toolplanner

下载链接

链接失效反馈

官方服务：

资源简介：

MGToolBench数据集用于训练和测试ToolPlanner模型，包含多层次指令分割和成对响应数据。

The MGToolBench dataset is designed for training and testing the ToolPlanner model, and it contains multi-level instruction segmentation and paired response data.

创建时间：

2024-12-03

原始信息汇总

ToolPlanner 数据集概述

数据集描述

ToolPlanner 数据集包含多个子数据集，用于支持多粒度指令处理、路径规划和反馈的工具增强型语言模型的训练和评估。以下是数据集的详细描述：

数据路径及描述

路径	数据描述
`/data/category/dataset`	MGToolBench: pairwise_responses
`/data/category/answer`	MGToolBench: Multi-Level Instruction Split
`/data/category/coarse_instruction`	Self-Instruct Data: multi-granularity instructions
`/data/test_sample`	Test Sample: test dataset
`/data/category/toolenv`	Tool Environment: Tools, APIs, and their documentation
`/data/category/inference`	Output: solution trees path
`/data/category/converted_answer`	Output: converted_answer path
`/data/category/retrieval/G3_category`	Supplementary: Category & Tool & API Name
`/data/retrieval/G3_clear`	Supplementary: corpus for separate retriever

数据下载

以下是数据集的下载路径及描述：

路径	数据描述	数据名称	下载链接
`/data/category/answer`	MGToolBench: sft training dataset	G3_plan_gen_train_1020_G3_3tag_whole_prefixTagTraceAll.json	https://huggingface.co/datasets/wuqinzhuo/ToolPlanner
`/data/category/dataset`	MGToolBench: pairwise_responses	G3_1107_gensample_Reward_pair.json	https://huggingface.co/datasets/wuqinzhuo/ToolPlanner
`/data/category/toolenv`	Tool Environment: Tools, APIs, and their documentation	toolenv.zip	https://huggingface.co/datasets/wuqinzhuo/ToolPlanner
`/data/category/inference`	Output: solution trees path	inference.zip	https://huggingface.co/datasets/wuqinzhuo/ToolPlanner
`/data/retrieval/G3_clear`	Training dataset for Retriever model	train.json	https://huggingface.co/datasets/wuqinzhuo/ToolPlanner
`/data/retrieval/G3_clear`	Training dataset for Retriever model	corpus.tsv	https://huggingface.co/datasets/wuqinzhuo/ToolPlanner

模型下载

以下是模型及其下载路径：

路径	模型描述	模型名称	下载链接
`ToolPlanner root path`	Stage1 sft model	ToolPlanner_Stage1_1020	https://huggingface.co/wuqinzhuo/ToolPlanner_Stage1_1020
`ToolPlanner root path`	Stage1 sft model	ToolPlanner_Stage2_1107	https://huggingface.co/wuqinzhuo/ToolPlanner_Stage2_1107/
`ToolPlanner root path`	Baseline ToolLLaMA	ToolLLaMA-7b	https://github.com/OpenBMB/ToolBench
`ToolPlanner root path`	Retriever model for test, using MGToolBench data	model_1122_G3_tag_trace_multilevel	https://huggingface.co/wuqinzhuo/model_1122_G3_tag_trace_multilevel
`ToolPlanner root path`	Retriever model for test, using ToolBench data	retriever_model_G3_clear	https://huggingface.co/wuqinzhuo/retriever_model_G3_clear

数据集使用

训练

Stage 1 SFT: 使用 G3_plan_gen_train_1020_G3_3tag_whole_prefixTagTraceAll.json 进行训练。
Stage 2 Reinforcement Learning: 使用 G3_1107_gensample_Reward_pair.json 进行训练。

推理

生成解决方案树: 使用 inference_cuda_model_method_output_input_tag.sh 脚本进行推理。

评估

匹配率和通过率: 使用 eval_match_pass_rate.sh 脚本进行评估。
胜率: 使用 eval_win_rate_cut_list.sh 脚本进行评估。

许可证

数据集的许可证为 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)。
源代码的许可证为 Apache 2.0。

搜集汇总

数据集介绍

构建方式

MGToolBench数据集的构建基于多粒度指令的生成与处理，通过自指导数据和多层次指令分割技术，结合工具环境中的API和工具文档，形成了丰富的指令对响应数据。数据集的构建过程包括两个主要阶段：第一阶段通过自指导数据生成多粒度指令，第二阶段则通过路径规划和反馈机制进一步优化指令的响应。此外，数据集还包含了用于检索模型的训练数据，以及用于测试的样本数据，确保了数据集的多样性和实用性。

使用方法

MGToolBench数据集的使用方法主要包括数据下载、模型训练和推理三个步骤。首先，用户需从指定的URL下载数据集文件并解压缩。接着，用户可以根据提供的脚本进行模型训练，分为两个阶段：第一阶段进行监督微调（SFT），第二阶段进行强化学习（RL）。训练完成后，用户可以通过提供的推理脚本生成解决方案树，并根据生成的结果进行评估。数据集的使用涵盖了从数据准备到模型评估的全流程，确保了用户能够充分利用数据集进行模型开发和验证。

背景与挑战

背景概述

MGToolBench数据集由Qinzhuo Wu等人于2024年创建，旨在支持工具增强的大型语言模型（LLM）在多粒度指令处理中的应用。该数据集的核心研究问题是如何通过路径规划和反馈机制，提升LLM在复杂任务中的表现。MGToolBench不仅提供了多层次的指令拆分和工具环境，还包含了用于训练和评估的多样化数据集，如工具、API及其文档。该数据集的发布对自然语言处理领域具有重要意义，尤其是在工具增强的LLM研究和应用方面，为未来的研究提供了丰富的资源和基准。

当前挑战

MGToolBench数据集在构建过程中面临多项挑战。首先，如何设计有效的多粒度指令拆分机制，以确保LLM能够处理复杂且多层次的任务，是一个关键问题。其次，工具和API的集成与文档的完整性要求极高，确保数据集的实用性和准确性。此外，数据集的多样性和规模也带来了存储和处理上的挑战，尤其是在大规模训练和推理过程中，如何高效地管理和利用这些数据资源。最后，评估模型的性能时，如何设计合理的评估指标和方法，以确保结果的可靠性和公正性，也是该数据集面临的重要挑战。

常用场景

经典使用场景

MGToolBench数据集的经典使用场景主要集中在多粒度指令处理和工具增强的LLM（大型语言模型）应用中。该数据集通过提供多层次的指令拆分和工具环境，支持模型在复杂任务中进行路径规划和反馈调整。具体应用包括工具增强的指令生成、工具API的调用规划以及多粒度指令的推理和响应生成。这些场景使得模型能够在不同复杂度的任务中展现出高效的问题解决能力。

解决学术问题

MGToolBench数据集解决了多粒度指令处理中的关键学术问题，特别是在复杂任务中如何有效利用工具增强的LLM进行路径规划和反馈调整。该数据集通过提供多层次的指令拆分和工具环境，帮助研究者探索如何在不同粒度上优化指令理解和执行。这不仅提升了模型的任务处理能力，还为多粒度指令处理的研究提供了新的视角和方法，推动了相关领域的技术进步。

实际应用

在实际应用中，MGToolBench数据集被广泛用于开发和优化工具增强的LLM，特别是在需要复杂指令处理和路径规划的场景中。例如，在自动化任务调度、智能助手和复杂API调用系统中，该数据集提供了关键的训练和评估资源。通过利用多粒度指令和工具环境，这些应用能够更高效地处理复杂任务，提升系统的智能化水平和用户体验。

数据集最近研究