five

SHORTCUTSBENCH

收藏
arXiv2024-06-28 更新2024-07-04 收录
下载链接:
https://github.com/eachsheep/shortcutsbench
下载链接
链接失效反馈
官方服务:
资源简介:
SHORTCUTSBENCH是由北京大学人工智能研究所创建的一个大规模真实API基准数据集,旨在评估API-based agents在处理多难度级别、多样任务类型和实际需求的能力。数据集包含7628条数据,涵盖了从Apple Inc.的操作系统中提取的真实API、精炼的用户查询以及快捷方式开发者标注的高质量动作序列。数据集的创建过程包括从公共快捷方式分享站点爬取数据、去重、提取API信息等步骤。该数据集主要应用于评估和提升API-based agents在复杂查询处理、参数填充和系统/用户信息请求等方面的能力。

SHORTCUTSBENCH is a large-scale real-world API benchmark dataset developed by the Institute of Artificial Intelligence at Peking University, which aims to evaluate the capabilities of API-based agents when handling tasks with varying difficulty levels, diverse task types and practical requirements. The dataset contains 7628 entries, covering real-world APIs extracted from Apple Inc.'s operating systems, refined user queries, and high-quality action sequences annotated by Shortcuts developers. The dataset creation process includes steps such as crawling data from public Shortcuts sharing platforms, deduplication, and API information extraction. This dataset is primarily used to evaluate and enhance the capabilities of API-based agents in complex query processing, parameter filling, and system/user information request handling.
提供机构:
北京大学
创建时间:
2024-06-28
原始信息汇总

数据集概述

数据集名称

ShortcutsBench

数据集统计信息

  • 应用数量: 88
  • API 数量: 1414
  • 快捷指令数量: 7628
  • 平均 API 使用量: 7.86
  • 平均动作数量: 21.46

数据集内容

ShortcutsBench 数据集包含以下内容:

  • 快捷指令:即 golden 中的动作序列。
  • 查询:即分配给代理的任务。
  • API:即代理可用的工具。

数据集文件

  • 原始快捷指令数据集:文件 1_final_detailed_records_remove_repeat.json,可从 Google DriveBaidu Cloud 下载。
  • 过滤后的快捷指令数据集:文件 1_final_detailed_records_filter_apis.json,可从 Google DriveBaidu Cloud 下载。
  • 快捷指令数据集(长度 <=30):文件 1_final_detailed_records_filter_apis_leq_30.json,可从 Google DriveBaidu Cloud 下载。
  • 生成的查询:文件 generated_success_queries.json,可从 Google DriveBaidu Cloud 下载。
  • API 数据:文件 4_api_json_filter.json,可从 Google DriveBaidu Cloud 下载。

数据集优势

ShortcutsBench 在 API 的真实性、丰富性和复杂性,查询和相应动作序列的有效性,参数值的准确填充,以及整体规模方面具有显著优势。它是基于真实 API 的大规模代理基准,提供了丰富的真实 API、不同难度和任务类型的查询、高质量的人工标注动作序列,以及精确的参数值填充。

用户指南

  • 搜索快捷指令:在 users_dataset/${website name}/${category name}/README.md 文件中查找快捷指令的元数据,包括名称、描述、iCloud 下载链接等。
  • 导入快捷指令:在 Apple 设备上点击 iCloud 链接,快捷指令将自动打开并导入到 Shortcuts 应用中。
  • 下载快捷指令源文件:除了逐个下载快捷指令,还可以从 Baidu CloudGoogle Drive 获取完整数据。

数据来源和链接

快捷指令源文件介绍

快捷指令源数据在云盘中的目录结构如下:

users_dataset/ ├── matthewcassinelli.com_sirishortcuts_library_free # 网站名称 │ ├── file1 │ ├── file2 │ └── file3

users_dataset/ ├── jiejingku.net # 网站名称 │ ├── category1 # 分类 │ │ ├── file1 # 每个具体的快捷指令 │ │ └── file2 │ ├── category2 │ │ └── file3

每个文件代表一个快捷指令。文件名是通过简单处理快捷指令名称生成的,使用以下代码: python file_name = re.sub(r[^a-zA-Z0-9], _, name)

我们提供的快捷指令源文件是 JSON 格式,而 Apple 设备导出的快捷指令是 iCloud 链接(以链接形式共享)或加密的快捷指令文件(.shortcut 扩展名)。

要在 macOS 上的 Shortcuts 应用中导入快捷指令源文件,请按照以下步骤操作:

  • JSON 文件格式转换为 PLIST 格式: python import xml.etree.ElementTree as ET

    def parse_element(element): """ Recursively parse XML elements and return dictionaries and lists. """ if element.tag == dict: return {element[i].text: parse_element(element[i+1]) for i in range(0, len(element), 2)} elif element.tag == array: return [parse_element(child) for child in element] elif element.tag == true: return True elif element.tag == false: return False elif element.tag == integer: return int(element.text) elif element.tag == string: return element.text elif element.tag == real: return float(element.text) else: raise ValueError("Unsupported tag: " + element.tag)

    tree = ET.parse(file_path) root_element = tree.getroot() parsed_data = parse_element(root_element[0]) data = parsed_data

    save_path = "./" with open(save_path, w) as f: json.dump(data, f, indent=4)

  • 使用 shortcuts sign --mode anyone --input $input_file --output $output_filePLIST 文件进行签名,替换 $input_file$output_file 为实际文件路径。

  • 将签名后的文件导入 Shortcuts 应用。

以上是根据提供的数据集详情页面内容提炼的关键信息,结构化地展示了数据集的概述、内容、优势、用户指南和数据来源。

搜集汇总
数据集介绍
main_image_url
构建方式
SHORTCUTSBENCH 数据集的构建过程涉及从多个流行的公共快捷方式共享网站爬取数据,包括快捷方式的名称、功能描述、类型和 iCloud 链接等信息。随后,通过源文件提取应用名称,并下载相关应用。之后,从下载的应用中提取 API,包括来自 AppIntent、SiriKit 和系统路径的 API。为了确保数据的质量,进行了数据去重和 API 去重。最终,SHORTCUTSBENCH 包含了来自各种类别的 88 个应用和 1414 个 API。
使用方法
SHORTCUTSBENCH 数据集的使用方法如下:1. 评估 API 选择:通过比较代理预测的 API 选择与真实 API 选择之间的准确性来评估代理的 API 选择能力。2. 评估 API 参数值填充:通过比较代理填充的参数值与真实参数值之间的准确性来评估代理的 API 参数值填充能力。3. 评估代理对输入的需求:通过比较代理识别的输入需求与真实输入需求之间的准确性来评估代理对输入的需求的识别能力。
背景与挑战
背景概述
SHORTCUTSBENCH数据集是由北京大学人工智能研究院等机构的研究人员于2024年提出的,旨在评估基于API的智能体在解决不同难度级别、多样化任务类型和实际需求方面的能力。该数据集包含了来自苹果公司操作系统的丰富真实API、经过精炼的用户查询、由快捷方式开发者标注的高质量动作序列,以及关于基本参数类型、枚举参数类型、之前动作的输出以及需要从系统或用户请求必要信息的参数的准确填充值。SHORTCUTSBENCH数据集的提出填补了现有基准在评估API选择、参数填充和请求必要信息方面的空白,为研究基于API的智能体提供了重要的参考。
当前挑战
SHORTCUTSBENCH数据集面临的主要挑战包括:1) API选择:现有基于LLM的智能体在处理多步推理任务时表现不佳,特别是在难度较高的任务中。2) 参数填充:从用户查询中提取必要参数并填充到API中是一个具有挑战性的任务,现有智能体在这方面仍然存在瓶颈。3) 请求必要信息:现有智能体在请求系统或用户必要信息方面存在显著不足,无法有效地解决缺失信息的问题。
常用场景
经典使用场景
SHORTCUTSBENCH 数据集被广泛应用于评估基于大型语言模型的 API 代理在解决不同难度级别、多种任务类型和实际需求方面的能力。它包括丰富的真实 API、多样化的查询、高质量的人类标注动作序列以及准确的参数填充值。通过使用该数据集,研究人员可以评估代理在 API 选择、参数填充和请求必要信息方面的性能,从而提高代理的自主性和规划能力。
解决学术问题
SHORTCUTSBENCH 数据集解决了现有基准/数据集在评估 API 代理方面的三个主要局限性。首先,它提供了丰富的真实 API 和复杂的查询,能够有效地区分不同代理的能力。其次,它考虑了代理在请求系统或用户必要信息方面的能力,从而更好地满足实际需求。第三,它提供了准确的参数填充值,包括基本数据类型、枚举类型和使用先前动作的输出作为参数值,从而更好地评估代理的参数填充能力。
实际应用
SHORTCUTSBENCH 数据集在实际应用场景中具有广泛的应用。它可以帮助开发人员评估和改进基于 API 的代理,从而提高其自主性和规划能力。此外,它还可以帮助研究人员更好地理解代理在解决实际需求方面的能力,从而推动基于 API 的代理技术的发展。
数据集最近研究
最新研究方向
SHORTCUTSBENCH数据集的推出为基于API的智能体研究提供了新的视角。该数据集涵盖了真实世界的APIs,并提供了多样化的任务类型和难度级别,使得研究人员能够更全面地评估智能体在解决现实问题时的能力。通过在SHORTCUTSBENCH上的评估,研究人员发现现有的基于LLM的智能体在处理复杂查询、参数填充和从系统或用户请求必要信息方面存在显著局限。这些发现突出了基于API的智能体在满足真实和复杂用户查询时面临的挑战。未来研究可能会集中在提高智能体在多步骤推理、参数填充和请求必要信息方面的能力,以及探索如何更好地整合LLM与APIs,以实现更智能和高效的智能体。
相关研究论文
  • 1
    ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents北京大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作