UltraTool
收藏UltraTool 数据集概述
简介
UltraTool 是一个用于评估大型语言模型(LLMs)在真实世界复杂场景中工具使用能力的新型基准。该基准强调从规划、创建到应用工具的全过程,并着重于真实世界的复杂性,要求进行准确的多步骤规划以有效解决问题。UltraTool 的一个关键特点是独立评估自然语言规划,这发生在工具使用之前,并通过规划中间步骤来简化任务解决。
数据结构
数据集分为中文和英文两个版本,每个版本包含以下内容:
- example/: 少样本示例用于推理。
- test_set/: 测试集。
- test.json: 用于构建测试集的测试数据。
- dev.json: 可选的开发集。
更新记录
- 2024.03.12: 发布开源 LLMs 的推理代码。
- 2024.03.04: 发布评估代码、GPT-3.5 和 GPT-4 的推理代码及预测结果。
- 2024.01.31: 发布 UltraTool 数据集,评估代码即将发布。
- 2023.01.31: 论文可在 ArXiv 上获取。
快速开始
准备工作
python $ git clone https://github.com/JoeYing1019/UltraTool.git $ cd UltraTool $ pip install requirements.txt
推理
闭源 LLMs
提供 GPT-3.5 和 GPT-4 的推理代码。
开源 LLMs
以 ChatGLM3 为例,说明评估过程。
评估
规划
依赖 GPT-4 进行评估。
工具创建
依赖 GPT-4 进行评估,并需要额外的后处理步骤。
工具创建意识
评估 GPT-3.5 和 GPT-4。
工具使用意识
评估 GPT-3.5 和 GPT-4。
工具选择
评估 GPT-3.5 和 GPT-4。
工具使用
评估 GPT-3.5 和 GPT-4。
引用
如果您的研究中使用了本项目,请引用以下论文:
@misc{huang2024planning, title={Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios}, author={Shijue Huang and Wanjun Zhong and Jianqiao Lu and Qi Zhu and Jiahui Gao and Weiwen Liu and Yutai Hou and Xingshan Zeng and Yasheng Wang and Lifeng Shang and Xin Jiang and Ruifeng Xu and Qun Liu}, year={2024}, eprint={2401.17167}, archivePrefix={arXiv}, primaryClass={cs.CL} }

- 1Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios · 2024年



