five

TOOLE

收藏
arXiv2024-02-23 更新2024-07-31 收录
下载链接:
https://github.com/HowieHwong/MetaTool
下载链接
链接失效反馈
官方服务:
资源简介:
TOOLE数据集由理海大学等机构的研究人员创建,包含21,127条用户查询,旨在评估大型语言模型(LLMs)的工具使用意识和选择能力。数据集涵盖多种类型的查询,包括单工具和多工具场景,用于触发LLMs使用工具。该数据集通过多种提示方法生成,包括情感生成、关键词生成等,以解决工具功能重叠的挑战。TOOLE数据集的应用领域包括自动化决策支持,旨在解决LLMs在工具使用和选择上的不足,推动智能代理的发展。

The TOOLE dataset was developed by researchers from Lehigh University and other affiliated institutions, comprising 21,127 user queries. It is designed to evaluate the tool usage awareness and selection capabilities of large language models (LLMs). The dataset encompasses diverse query types, including single-tool and multi-tool scenarios, to elicit tool usage behaviors from LLMs. Generated via multiple prompting approaches such as sentiment generation and keyword generation, the TOOLE dataset addresses the challenge of overlapping tool functionalities. Its application domains cover automated decision support, aiming to mitigate the deficiencies of LLMs in tool utilization and selection, and advance the development of AI Agents.
提供机构:
理海大学
创建时间:
2023-10-05
原始信息汇总

MetaTool Benchmark: Deciding Whether to Use Tools and Which to Use

简介

MetaTool 是一个评估大型语言模型(LLMs)是否具有工具使用意识并能正确选择工具的基准。它包括:

  • ToolE 数据集:包含多种类型的用户查询,以触发LLMs使用工具,包括单工具和多工具场景。
  • 多种任务:设置工具使用意识和工具选择任务。定义了四个子任务,从不同角度进行工具选择,包括相似选择、特定场景选择、可靠性问题选择和多工具选择。
  • 九种LLMs的实验结果:对九种流行的LLMs进行实验,发现大多数模型在有效选择工具方面仍有困难,突显了LLMs与真正智能代理之间的差距。

ToolE 数据集

数据集生成

ToolE 数据集包含21.1万个与工具使用相关的多样化用户查询。每个条目包括用户请求(即查询)及其对应的工具名称和工具描述。

数据集统计

生成方法 模型 样本数量
直接生成 ChatGPT, GPT-4 11,700
情感生成 ChatGPT 7,800
关键词生成 ChatGPT 1,950
详细生成 ChatGPT 7,800
多工具生成 ChatGPT, GPT-4 1,624
检查后 21,127 (20,630 单工具 + 497 多工具)

数据集文件

  • 单工具数据:dataset/data/all_clean_data.csv
  • 多工具数据:dataset/data/multi_tool_query_golden.json
  • 所有工具描述:dataset/plugin_des.json
  • OpenAI插件商店的元数据:dataset/plugin_info.json
  • 合并数据描述:dataset/big_tool_des.json
  • 工具描述的嵌入:dataset/tool_embedding.pkl
  • 场景工具列表(论文中的表10):dataset/scenario

评估结果

工具使用意识

工具选择

快速开始

安装包

shell pip install --upgrade pip pip install -r requirements.txt

下载模型

  • src/generation/.env文件中设置HF_HOME环境变量,指定Hugging Face模型缓存文件夹。
  • 使用以下命令下载模型: shell python src/generation/model_download.py --model_path lmsys/vicuna-7b-v1.3

工具嵌入

使用milvus存储工具嵌入并进行相似性搜索。

构建提示数据

预定义的提示模板在src/prompt/prompt_template中。

生成结果

通过运行run.sh脚本生成结果,可能需要根据需要修改运行参数。

故障排除

如果遇到Python导入错误,可能需要将此目录添加到Python路径中: shell

添加系统路径

src_path="$(pwd)/src" export PYTHONPATH="$PYTHONPATH:$src_path"

引用

@article{huang2023metatool, title = {MetaTool Benchmark: Deciding Whether to Use Tools and Which to Use}, author = {Yue Huang and Jiawen Shi and Yuan Li and Chenrui Fan and Siyuan Wu and Qihui Zhang and Yixin Liu and Pan Zhou and Yao Wan and Neil Zhenqiang Gong and Lichao Sun}, year = {2023}, journal = {arXiv preprint arXiv: 2310.03128} }

搜集汇总
数据集介绍
main_image_url
构建方式
TOOLE数据集的构建主要分为三个步骤:数据生成、重叠问题解决和人工检查。首先,数据生成阶段从OpenAI的插件列表中获取工具名称和描述,并利用ChatGPT/GPT-4生成与工具相关的用户查询。为了确保查询的多样性,采用了四种不同的技术:直接多样化生成、情感生成、关键词生成和详细信息生成。其次,为了解决查询可以由多个工具解决的重叠问题,将功能相似的工具合并为一个工具,并对可以执行多个功能的工具进行分解。最后,对所有查询进行人工检查,包括删除不符合要求的查询和工具,以及处理与特殊工具类别相关的查询。
特点
TOOLE数据集具有以下特点:1. 查询多样性:数据集包含21,127个用户查询,涵盖了各种工具使用的场景,包括单工具和多工具查询。2. 生成方法多样化:查询生成采用多种方法,包括情感生成、关键词生成、直接多样化生成和详细信息生成,确保了查询的多样性和实用性。3. 解决重叠问题:通过工具合并和分解,确保每个查询只对应一个真实标签,提高了数据集的准确性。4. 人工检查:所有查询都经过人工检查,确保了数据集的质量和完整性。
使用方法
TOOLE数据集的使用方法如下:1. 下载数据集:可以从提供的URL下载TOOLE数据集。2. 数据预处理:根据具体任务需求,对数据集进行预处理,例如清洗、标注等。3. 模型训练:使用TOOLE数据集训练模型,例如LLM模型,以提升其在工具使用意识方面的能力。4. 评估模型:使用TOOLE数据集中的测试集评估模型的性能,例如准确率、召回率、精确率和F1分数等。5. 分析结果:根据评估结果分析模型的优点和不足,并进一步改进模型。
背景与挑战
背景概述
近年来,大型语言模型(LLMs)因其卓越的自然语言处理(NLP)能力而备受关注。许多研究聚焦于LLMs与特定工具的有效协作。然而,在LLMs作为智能代理的情境下,如AutoGPT和MetaGPT等应用中,LLMs需要参与复杂的决策过程,包括决定是否使用工具以及从可用工具中选择最合适的工具来满足用户请求。为此,METATOOL基准被设计用来评估LLMs是否具备工具使用意识并能正确选择工具。METATOOL包含了一个名为TOOLE的全面数据集,该数据集包含各种类型的用户查询,旨在触发LLMs使用工具,包括单工具和多工具场景。该数据集的创建于2024年,主要研究人员包括Yue Huang、Jiawen Shi、Yuan Li等人,来自Lehigh University、Huazhong University of Science and Technology、University of Cambridge和Duke University。该数据集的核心研究问题是评估LLMs的工具使用意识以及选择工具的能力,并对相关领域产生了重要影响。
当前挑战
TOOLE数据集面临的主要挑战包括:1) LLMs的工具使用意识不足,大部分LLMs仍然难以有效选择工具,这与真正的智能代理存在显著差距;2) 在构建过程中,数据集的多样性是关键挑战,需要涵盖各种现实世界场景,并解决工具功能重叠的问题;3) 在任务设置方面,需要包括不同的任务来评估LLMs在不同方面的表现,例如可靠性、在日常生活不同场景下的性能等。
常用场景
经典使用场景
TOOLE数据集在评估大型语言模型(LLMs)的工具使用意识和工具选择能力方面具有经典的使用场景。该数据集包含各种类型的用户查询,旨在触发LLMs使用工具,包括单一工具和多工具场景。这些查询通过不同的提示方法生成,如情感生成、关键词生成、直接多样化和详细生成,从而确保了数据的多样性和覆盖了广泛的现实世界场景。TOOLE数据集的引入填补了现有LLM工具使用评估的空白,为LLM工具使用能力的全面评估提供了重要参考。
解决学术问题
TOOLE数据集解决了LLM工具使用评估中存在的两个主要问题:数据集多样性和重叠问题,以及任务设置问题。首先,TOOLE数据集包含了21,127个用户查询,这些查询使用多种提示方法生成,确保了数据的多样性和覆盖了广泛的现实世界场景。其次,TOOLE数据集通过工具合并和分解操作解决了工具功能重叠的问题,确保了每个查询只有一个真实标签。此外,TOOLE数据集设计了四个子任务来评估LLMs的工具选择能力,包括相似选择工具选择、特定场景工具选择、可能存在可靠性问题的工具选择和多工具选择。这些任务从不同的角度评估LLMs的工具选择能力,为LLM工具使用能力的全面评估提供了重要参考。
衍生相关工作
TOOLE数据集的引入激发了相关研究的深入发展。首先,基于TOOLE数据集,研究人员可以进一步探索LLM工具使用能力的评估方法,例如,可以设计更细粒度的评估指标,或者开发更先进的评估工具。其次,基于TOOLE数据集,研究人员可以进一步研究LLM工具选择模型的训练和优化方法,例如,可以探索更有效的训练策略,或者设计更先进的模型结构。此外,TOOLE数据集还可以用于其他相关研究,例如,可以用于研究LLM模型在特定领域的工具使用能力,或者用于研究LLM模型与其他智能体的协作能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作