GTA
收藏arXiv2024-07-12 更新2024-07-14 收录
下载链接:
https://github.com/open-compass/GTA
下载链接
链接失效反馈官方服务:
资源简介:
GTA数据集由上海交通大学和上海人工智能实验室联合创建,专注于评估大型语言模型在真实世界场景中的工具使用能力。该数据集包含229个由人类设计的真实用户查询任务,涉及多模态输入和实际部署的工具。创建过程中,数据集确保了查询的真实性和工具的可执行性,旨在揭示LLMs在复杂任务中的实际问题解决能力,特别是在感知、操作、逻辑和创造性任务中的应用。
The GTA Dataset was jointly developed by Shanghai Jiao Tong University and Shanghai AI Laboratory, focusing on evaluating the tool-use capabilities of large language models (LLMs) in real-world scenarios. This dataset includes 229 real-world user query tasks designed by humans, involving multimodal inputs and practically deployed tools. During its construction, the dataset guarantees the authenticity of the queries and the executability of the tools, with the goal of revealing the practical problem-solving abilities of LLMs in complex tasks, especially their applications in perceptual, operational, logical, and creative tasks.
提供机构:
上海交通大学 上海人工智能实验室
创建时间:
2024-07-12
原始信息汇总
GTA: A Benchmark for General Tool Agents
🌟 Introduction
GTA是一个用于评估基于大型语言模型(LLM)的代理在现实场景中使用工具能力的基准。其主要特点包括:
- 真实用户查询:包含229个人类编写的查询,具有简单的现实世界目标但隐含工具使用,需要LLM推理合适的工具并规划解决方案步骤。
- 真实部署工具:提供一个评估平台,配备感知、操作、逻辑和创造力类别的工具,以评估代理的实际任务执行性能。
- 真实多模态输入:每个查询附带真实的图像文件,如空间场景、网页截图、表格、代码片段和印刷/手写材料,作为查询上下文,以紧密对齐现实世界场景。
📚 Dataset Statistics
GTA包含总共229个问题。每个问题涉及的工具数量从1到4不等,解决问题所需的步骤从2到8步不等。
🏆 Leader Board
GTA评估语言模型的两种模式:
- 逐步骤模式:评估模型的细粒度工具使用能力。使用四个指标:InstAcc(指令跟随准确性)、ToolAcc(工具选择准确性)、ArgAcc(参数预测准确性)和SummAcc(答案总结准确性)。
- 端到端模式:反映工具代理的实际任务执行性能。使用AnsAcc(最终答案准确性)来衡量执行结果的准确性,并计算四个F1分数(P、L、O、C)在感知、操作、逻辑和创造力类别中,以衡量工具选择能力。
以下是各种LLM在GTA上的性能:
| Models | Inst | Tool | Arg | Summ | P | O | L | C | Ans |
|---|---|---|---|---|---|---|---|---|---|
| 💛 API-based | |||||||||
| gpt-4-1106-preview | 85.19 | 61.4 | 37.88 | 75 | 67.61 | 64.61 | 74.73 | 89.55 | 46.59 |
| gpt-4o | 86.42 | 70.38 | 35.19 | 72.77 | 75.56 | 80 | 78.75 | 82.35 | 41.52 |
| gpt-3.5-turbo | 67.63 | 42.91 | 20.83 | 60.24 | 58.99 | 62.5 | 59.85 | 97.3 | 23.62 |
| claude3-opus | 64.75 | 54.4 | 17.59 | 73.81 | 41.69 | 63.23 | 46.41 | 42.1 | 23.44 |
| mistral-large | 58.98 | 38.42 | 11.13 | 68.03 | 19.17 | 30.05 | 26.85 | 38.89 | 17.06 |
| 💚 Open-source | |||||||||
| qwen1.5-72b-chat | 48.83 | 24.96 | 7.9 | 68.7 | 12.41 | 11.76 | 21.16 | 5.13 | 13.32 |
| qwen1.5-14b-chat | 42.25 | 18.85 | 6.28 | 60.06 | 19.93 | 23.4 | 39.83 | 25.45 | 12.42 |
| qwen1.5-7b-chat | 29.77 | 7.36 | 0.18 | 49.38 | 0 | 13.95 | 16.22 | 36 | 10.56 |
| mixtral-8x7b-instruct | 28.67 | 12.03 | 0.36 | 54.21 | 2.19 | 34.69 | 37.68 | 42.55 | 9.77 |
| deepseek-llm-67b-chat | 9.05 | 23.34 | 0.18 | 11.51 | 14.72 | 23.19 | 22.22 | 27.42 | 9.51 |
| llama3-70b-instruct | 47.6 | 36.8 | 4.31 | 69.06 | 32.37 | 22.37 | 36.48 | 31.86 | 8.32 |
| mistral-7b-instruct | 26.75 | 10.05 | 0 | 51.06 | 13.75 | 33.66 | 35.58 | 31.11 | 7.37 |
| deepseek-llm-7b-chat | 10.56 | 16.16 | 0.18 | 18.27 | 20.81 | 15.22 | 31.3 | 37.29 | 4 |
| yi-34b-chat | 23.23 | 10.77 | 0 | 34.99 | 11.6 | 11.76 | 12.97 | 5.13 | 3.21 |
| llama3-8b-instruct | 45.95 | 11.31 | 0 | 36.88 | 19.07 | 23.23 | 29.83 | 42.86 | 3.1 |
| yi-6b-chat | 21.26 | 14.72 | 0 | 32.54 | 1.47 | 0 | 1.18 | 0 | 0.58 |
搜集汇总
数据集介绍

构建方式
GTA数据集的构建旨在弥合现有工具使用评估与现实世界场景之间的差距。数据集的设计考虑了真实用户查询、真实部署的工具和真实多模态输入三个主要方面。首先,真实用户查询是由人类设计的,具有简单的现实世界目标但隐含工具使用,要求LLM推理合适的工具并规划解决方案步骤。其次,真实部署的工具是一个配备有感知、操作、逻辑和创造力类别工具的评价平台,以评估代理的实际任务执行性能。最后,真实多模态输入使用真实的图像文件作为查询上下文,以紧密地与真实世界场景对齐。
使用方法
GTA数据集的使用方法如下:1) 数据集以JSON格式提供,包含自然语言查询、图像文件输入、工具描述、参考工具链和最终答案;2) 数据集包含229个现实世界任务和可执行工具链,用于评估主流LLM;3) 数据集提供了细粒度的工具评估指标,覆盖了整个工具调用过程;4) 数据集可用于评估LLM在真实世界场景中的工具使用能力,并为提高LLM的工具使用能力提供指导。
背景与挑战
背景概述
随着大型语言模型(LLMs)与各种工具的整合,开发通用型代理的研究受到了广泛关注。然而,现有的工具使用评估与现实世界场景之间存在着明显的差距。目前的评估通常使用AI生成的查询、单步任务、虚拟工具以及纯文本交互,这些方法无法有效揭示代理的真实世界问题解决能力。为了解决这个问题,我们提出了GTA,一个用于通用工具代理的基准,它具有三个主要特点:(i)真实用户查询:由人类编写的具有简单现实世界目标但隐含工具使用的查询,要求LLM推理合适的工具并规划解决方案步骤。(ii)真实部署的工具:一个配备了感知、操作、逻辑和创造力类别工具的评估平台,以评估代理的实际任务执行性能。(iii)真实多模态输入:使用真实的图像文件,如空间场景、网页截图、表格、代码片段和打印/手写材料,作为查询上下文,以紧密匹配现实世界场景。我们设计了229个现实世界任务和可执行的工具链来评估主流LLMs。我们的发现表明,现实世界的用户查询对现有的LLMs来说是一项挑战,GPT-4完成了不到50%的任务,而大多数LLMs的完成率低于25%。这项评估揭示了当前LLMs在现实世界场景中工具使用能力的瓶颈,为通用型工具代理的进步提供了未来方向。
当前挑战
GTA数据集相关的挑战主要包括:(i)现实世界用户查询的挑战:现有的LLMs在解决现实世界任务时,工具使用能力存在瓶颈。GPT-4完成的任务不到50%,而大多数LLMs的完成率低于25%。(ii)构建过程中的挑战:为了确保评估紧密反映现实世界场景,我们需要考虑用户查询、工具和交互模态的真实性。现有的工具使用评估方法主要关注文本形式的用户代理交互,缺乏对多模态能力的评估,因此无法有效地与现实世界场景相匹配。为了解决这些问题,GTA数据集采用了真实用户查询、真实部署的工具和真实多模态输入,以提供更接近现实世界场景的评估。
常用场景
经典使用场景
GTA数据集旨在评估通用工具代理在现实世界场景中的工具使用能力。其经典使用场景包括处理真实用户的查询,这些查询具有明确的现实世界目标,但工具使用步骤是隐含的,需要LLM进行推理和规划。数据集还提供了真实部署的工具和真实的多模态输入,如空间场景、网页截图、表格、代码片段等,以模拟真实世界的交互。
解决学术问题
GTA数据集解决了现有工具使用评估与真实世界场景之间的差距问题。现有的评估往往使用AI生成的查询、单步任务、虚拟工具和纯文本交互,无法有效揭示代理在现实世界中的问题解决能力。GTA数据集通过引入真实用户查询、真实部署的工具和真实多模态输入,为通用工具代理的评估提供了更接近现实世界场景的基准。
实际应用
GTA数据集的实际应用场景包括开发更智能的通用AI助手和机器人。通过评估LLM在现实世界任务中的工具使用能力,可以促进通用工具代理的发展,使其在复杂环境中更有效地执行任务,如家庭自动化、客户服务、教育辅导等。
数据集最近研究
最新研究方向
GTA数据集的提出旨在解决当前大语言模型(LLMs)在工具使用能力评估中存在的现实世界场景差距。该数据集的核心是提供真实用户查询、真实部署的工具和真实的多模态输入,从而更准确地评估LLMs在现实世界中的问题解决能力。GTA数据集包含229个现实世界任务和可执行的工具链,用于评估主流LLMs。研究表明,现有的LLMs在处理现实世界用户查询时面临挑战,例如GPT-4只能完成不到50%的任务,而大多数LLMs的完成率低于25%。这些评估结果揭示了当前LLMs在现实世界场景中工具使用能力的瓶颈,为通用工具代理的进一步发展提供了方向。未来的研究方向可能包括改进LLMs的推理和规划能力,提高其工具选择和参数预测的准确性,以及开发更全面、更具挑战性的评估基准。
相关研究论文
- 1GTA: A Benchmark for General Tool Agents上海交通大学 上海人工智能实验室 · 2024年
以上内容由遇见数据集搜集并总结生成



