five

ToolBench|工具调用数据集|API数据集数据集

收藏
github2023-07-01 更新2025-02-07 收录
工具调用
API数据集
下载链接:
https://github.com/sambanova/toolbench
下载链接
链接失效反馈
资源简介:
ToolBench 数据集是一个由模型自动生成的工具使用数据集。其构建过程主要包括三个阶段:首先,收集了16,464个真实的工具API,涵盖49个类别;其次,利用模型为这些API生成各种指令,包括单工具和多工具场景;最后,利用模型为每条指令搜索有效的解决方案路径。该数据集总共包含12.6万个实例,为工具调用提供了一个丰富的资源。

The ToolBench dataset is a tool usage dataset automatically generated by models. Its construction process consists of three main phases: first, 16,464 real tool APIs from 49 categories were collected; second, various instructions, including single-tool and multi-tool scenarios, were generated for these APIs by the model; finally, effective solution paths for each instruction were searched using the model. The dataset contains a total of 126,000 instances, providing a rich resource for tool invocation.
提供机构:
清华大学
创建时间:
2023-07-01
原始信息汇总

ToolBench 数据集概述

数据集简介

ToolBench 是一个用于评估大型语言模型(LLMs)在软件工具操作任务上表现的基准测试集。该数据集旨在研究开源LLMs与闭源模型在工具操作能力上的差距,并促进开源LLMs的发展。

数据集特点

  • 包含多样化的真实世界软件工具任务
  • 提供易于使用的基础设施直接评估模型执行成功率
  • 支持多种工具和模型的评估

包含工具

  1. OpenWeather
  2. The Cat API
  3. Home Search
  4. Trip Booking
  5. Google Sheet
  6. VirtualHome
  7. Webshop
  8. Tabletop

数据集结构

每个任务在data/目录下按以下结构组织:

<task>/<version>/ ├── examples/ │ ├── 0_0.txt │ ├── ... ├── functions/ │ ├── search │ ├── ... └── test.jsonl

评估方法

使用test.py脚本评估模型在指定工具上的API函数调用成功率,支持以下参数配置:

  • 任务选择
  • 模型选择
  • API检索数量
  • 提示中的示例数量

使用示例

bash python test.py --task open_weather --version v0 --top_k_api 10 --top_k_example 3 --num_test_samples -1 --client_name "openai" --model_name text-davinci-003 --max_output_token 128

数据示例

每个任务提供API文档和使用示例,例如:

  • OpenWeather: 获取天气和空气污染数据
  • The Cat API: 管理喜欢的猫图片
  • Home Search: 房屋搜索条件设置
  • Trip Booking: 旅行票务和酒店预订
  • Google Sheets: 电子表格操作

系统要求

  • Conda (anaconda)
  • Java >= 11.0.13
  • 需要注册多个API密钥

安装步骤

  1. 创建虚拟环境
  2. 下载资源
  3. 安装依赖
  4. 运行测试验证安装

贡献

欢迎贡献新的动作生成算法和测试任务。

AI搜集汇总
数据集介绍
main_image_url
构建方式
ToolBench数据集的构建旨在填补开源大语言模型(LLMs)在工具操作能力上的研究空白。该数据集通过整合多样化的软件工具,涵盖了从天气查询到虚拟家居操作等真实世界任务。构建过程中,研究团队精心设计了多个任务版本,并为每个任务提供了详细的API文档和示例用例,确保数据集能够全面评估模型在工具调用和执行上的表现。
使用方法
使用ToolBench数据集时,用户首先需要配置相关API密钥和软件环境,如OpenAI、Google Cloud等。随后,通过提供的`test.py`脚本,用户可以针对特定任务和模型进行测试。测试过程中,用户可以通过调整参数(如API调用数量、示例数量等)来定制评估方案。测试结果将自动记录并缓存,便于后续分析和比较。此外,数据集还支持对HuggingFace模型的本地评估,进一步扩展了其应用场景。
背景与挑战
背景概述
ToolBench数据集由SambaNova Systems的研究团队创建,旨在解决大型语言模型(LLMs)在软件工具操作中的性能差距问题。近年来,尽管闭源模型(如OpenAI)在工具操作任务上表现出色,但开源模型的表现却显著落后。为了探究这一差距的根本原因,并推动开源模型在工具操作能力上的发展,ToolBench应运而生。该数据集包含多样化的软件工具任务,涵盖了从天气查询到虚拟家居操作等多个领域,旨在为研究人员提供一个标准化的评估平台,促进开源模型的进步。
当前挑战
ToolBench面临的挑战主要集中在两个方面。首先,开源模型在工具操作任务上的表现与闭源模型存在显著差距,如何缩小这一差距是当前研究的核心问题。其次,数据集的构建过程中,如何确保任务的多样性和复杂性,以真实反映现实世界的工具操作需求,也是一个重要的挑战。此外,数据集的评估基础设施需要支持多种模型和任务的灵活测试,这对系统的可扩展性和易用性提出了较高要求。
常用场景
经典使用场景
ToolBench数据集主要用于评估大型语言模型(LLMs)在处理多样化软件工具时的表现。通过提供一系列真实世界任务,如天气查询、房屋搜索、旅行预订等,ToolBench能够全面测试模型在调用API、生成代码和执行任务方面的能力。这一数据集特别适用于研究开源LLMs在工具操作上的表现,帮助开发者识别和解决模型在实际应用中的瓶颈。
解决学术问题
ToolBench数据集解决了开源大型语言模型在工具操作能力上与闭源模型之间的显著差距问题。通过提供多样化的任务和API调用场景,ToolBench帮助研究者深入分析模型在工具操作中的失败原因,并推动开源模型的改进。该数据集的出现填补了学术界在工具操作评估领域的空白,为开源LLMs的发展提供了重要的基准和参考。
实际应用
ToolBench数据集在实际应用中具有广泛的潜力。它可以用于开发智能助手、自动化工具调用系统以及多任务处理平台。例如,基于ToolBench的模型可以集成到智能家居系统中,帮助用户通过自然语言指令控制家电、查询天气或预订旅行。此外,该数据集还可用于企业级应用,如自动化办公工具的开发,提升工作效率和用户体验。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)与软件工具交互的研究领域,ToolBench数据集的出现为开源模型的工具操作能力提供了新的评估基准。当前研究热点集中在探索开源模型与封闭模型API(如OpenAI)在工具操作准确性上的差距,并试图通过ToolBench的多样化任务集来揭示这一差距的根本原因。该数据集不仅涵盖了从天气查询到虚拟家居控制等多种现实任务,还提供了便捷的基础设施以评估模型的执行成功率。随着开源LLMs的快速发展,ToolBench的研究方向正逐步向提升模型在复杂任务中的泛化能力和工具操作的精确性迈进,这对于推动开源模型的广泛应用具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

12306车次数据库

本数据库包含12306车次相关的详细信息,如车次代码、车站代码、列车基本信息和时刻表信息等。数据已按车次等级整理,并提供多种格式的数据文件,方便用户根据实际需求调用。

github 收录

VoxBox

VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

github 收录

CMAB

CMAB数据集由清华大学创建,是中国首个全国范围的多属性建筑数据集,涵盖了3667个自然城市,总面积达213亿平方米。该数据集通过集成多源数据,如高分辨率Google Earth影像和街景图像,生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型,确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究,旨在提供详细的城市3D物理和社会结构信息,支持城市化进程和政府决策。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录