AppWorld Benchmark

Name: AppWorld Benchmark
Creator: 石溪大学、艾伦人工智能研究所、萨尔兰大学
Published: 2024-07-27 01:55:45
License: 暂无描述

arXiv2024-07-27 更新2024-07-30 收录

下载链接：

https://github.com/stonybrooknlp/appworld

下载链接

链接失效反馈

官方服务：

资源简介：

AppWorld Benchmark是由石溪大学、艾伦人工智能研究所和萨尔兰大学联合创建的一个高质量数据集，包含750个复杂任务，旨在评估交互式编码代理的能力。数据集模拟了9个日常应用的457个API，涉及约100个虚构用户的数字活动。创建过程中，研究团队精心设计了任务，确保任务的自然性、多样性和挑战性，并通过严格的程序化评估确保任务的可靠性和鲁棒性。该数据集主要用于推动大型语言模型在自主代理领域的研究和应用，特别是在复杂任务自动化和交互式编码生成方面。

AppWorld Benchmark is a high-quality dataset jointly created by Stony Brook University, the Allen Institute for AI, and Saarland University. It contains 750 complex tasks, aiming to evaluate the capabilities of interactive coding agents. The dataset simulates 457 APIs across 9 daily-use applications, covering the digital activities of approximately 100 fictional users. During its development, the research team meticulously designed the tasks to ensure their naturalness, diversity, and challenging nature, and adopted rigorous programmatic evaluations to guarantee the reliability and robustness of the tasks. This dataset is primarily intended to advance research and applications of large language models (LLMs) in the autonomous agent domain, especially in the areas of complex task automation and interactive code generation.

提供机构：

石溪大学、艾伦人工智能研究所、萨尔兰大学

创建时间：

2024-07-27

原始信息汇总

数据集概述

数据集简介

名称: AppWorld Engine
描述: 一个高保真执行环境，包含9个日常应用程序，可通过457个API操作，模拟了约100人的数字活动，并提供了一系列需要丰富交互编码的自然、多样和挑战性的自主代理任务。

数据集内容

应用程序和API

应用程序数量: 9个日常应用程序（如Amazon, Spotify等）
API数量: 457个
数据库表数量: 100+

任务和数据

任务类型: 自主代理任务，需要丰富的交互编码和API调用
任务数量: 多个（具体数量未提供）
数据内容: 任务指令、初始状态、监督者信息、API文档等

数据结构

API文档: 标准格式、函数调用格式、OpenAPI格式
数据集: 训练集、开发集、测试集（正常和挑战）
数据库: 基础数据库和任务特定数据库

安装和使用

安装步骤

安装appworld包： bash pip install appworld
下载数据集： bash appworld download data

使用示例

加载任务: python from appworld import AppWorld, load_task_ids task_ids = load_task_ids("train") task_id = task_ids[0] world = AppWorld(task_id=task_id)
执行任务: python world.execute(""" response = apis.spotify.login(...) print(response) """)

评估和贡献

评估

评估命令: bash appworld evaluate sample train

贡献

欢迎贡献: 通过GitHub提交PR

许可证

许可证类型: Apache 2.0

搜集汇总

数据集介绍

构建方式

AppWorld Benchmark 数据集的构建方式是通过模拟现实生活中的九个日常应用程序，并通过 457 个 API 进行操作。这些应用程序包括电子邮件、转账、购物、本地文件系统等。数据集包含了约 100 个虚构用户的数字活动数据，模拟了他们的日常生活。此外，数据集还包括了 750 个需要生成丰富且交互式代码的自主代理任务，这些任务要求代理根据与环境的交互迭代地生成复杂控制流的代码。

特点

AppWorld Benchmark 数据集的特点是自然、多样和具有挑战性。它包括日常场景中的任务，覆盖多个应用程序（平均 1.8 个，最多 6 个）并依赖于使用多个 API（平均 9.5 个，最多 26 个）的复杂流程。解决这些任务需要根据与环境的交互迭代地编写丰富的代码（平均 50 行，最多 134 行）。此外，数据集还包含了一个基于状态的单元测试评估套件，允许对任务的不同解决方案进行评估，并检查意外的变化。

使用方法

AppWorld Benchmark 数据集的使用方法包括以下步骤：首先，需要将数据集加载到本地环境中。然后，可以使用数据集中的任务进行训练和评估自主代理模型。数据集提供了一个程序化评估套件，可以通过执行单元测试来评估代理模型在不同任务上的表现。此外，数据集还提供了一个执行壳，允许代理模型以交互方式编写和执行代码。最后，可以使用数据集中的任务来测试和评估代理模型在解决日常任务方面的能力。

背景与挑战

背景概述

AppWorld Benchmark 是一个由多个研究机构和学者共同创建的数据集，旨在为评估自主编码代理提供真实世界的应用程序操作环境。该数据集由 Stony Brook University、Allen Institute for AI 和 Saarland University 的研究人员于 2024 年开发，旨在解决现有工具使用基准的不足之处。AppWorld Benchmark 包含 9 个日常应用程序，通过 457 个 API 进行操作，并模拟约 100 个虚构用户的真实数字活动。该数据集的创建旨在推动交互式编码代理研究的前沿，并为大型语言模型（LLM）的能力设定新的标准。

当前挑战

AppWorld Benchmark 面临着多项挑战。首先，该数据集旨在解决复杂任务中交互式编码和 API 使用的问题，这些任务通常需要丰富的代码和与环境的交互。其次，构建过程中遇到的挑战包括创建一个可控且可重复的执行环境，并确保其稳定性和可靠性。此外，数据集的构建需要大量的工程工作，包括编写超过 100K 行代码，以及创建包含各种复杂性和动态性的真实数字生活的模拟数据。最后，AppWorld Benchmark 的评估方法需要能够处理多种完成任务的方式，并检查意外变化，即所谓的附带损害。

常用场景

经典使用场景

AppWorld Benchmark是一个专门用于评估交互式编码代理性能的数据集，它模拟了现实世界中用户与多个应用程序（如笔记、消息和购物应用）的互动，并通过API调用操作这些应用程序。该数据集提供了750个自然、多样且具有挑战性的任务，要求代理生成丰富且具有复杂控制流的代码。这些任务涵盖了日常生活中的各种场景，如订购杂货、管理日程安排和播放音乐等。AppWorld Benchmark支持基于状态的单元测试进行程序化评估，允许不同的解决方案方式，并检查意外变化。

衍生相关工作

AppWorld Benchmark的发布促进了交互式编码代理领域的研究和发展。它衍生了一系列相关工作，包括改进的评估方法、新的任务生成技术和更复杂的交互式代码生成模型。这些工作有助于推动交互式编码代理的性能边界，并促进它们在实际应用中的使用。此外，AppWorld Benchmark还为研究数字助理的隐私和安全风险提供了沙盒环境，从而为开发和部署这些代理提供了更深入的理解。

数据集最近研究