Crab Benchmark-v0

Name: Crab Benchmark-v0
Creator: KAUST、Eigent.AI、UTokyo、CMU、Stanford、Harvard、Tsinghua、SUSTech、Oxford
Published: 2024-07-02 01:55:04
License: 暂无描述

arXiv2024-07-02 更新2024-07-04 收录

下载链接：

https://github.com/camel-ai/crab

下载链接

链接失效反馈

官方服务：

资源简介：

Crab Benchmark-v0是由多个国际研究机构联合开发的一个跨平台任务数据集，包含100个任务，涵盖桌面和移动环境。数据集通过精心设计的子任务组合方法构建，旨在评估多模态语言模型在复杂任务中的表现。该数据集的应用领域主要集中在开发和评估自主代理在实际应用中的性能，特别是在多设备交互和任务完成方面。

Crab Benchmark-v0 is a cross-platform task dataset jointly developed by multiple international research institutions. It contains 100 tasks covering both desktop and mobile environments. Constructed via a meticulously designed subtask combination method, this dataset aims to evaluate the performance of multimodal large language models in complex tasks. Its primary application domains focus on developing and evaluating the performance of autonomous agents in real-world applications, particularly in multi-device interaction and task completion.

提供机构：

KAUST、Eigent.AI、UTokyo、CMU、Stanford、Harvard、Tsinghua、SUSTech、Oxford

创建时间：

2024-07-02

原始信息汇总

Crab: Cross-platform Agent Benchmark for Multimodal Embodied Language Model Agents

概述

Crab 是一个用于构建 LLM 代理基准环境的框架，以 Python 为中心。

主要特点

跨平台
- 创建支持多种部署选项的代理环境，包括内存中、Docker 托管、虚拟机或分布式物理机，前提是它们可以通过 Python 函数访问。
- 通过统一的接口让代理同时访问所有环境。
易于使用的配置
- 通过在 Python 函数上添加 @action 装饰器来添加新动作。
- 通过整合多个动作来定义环境。
新颖的基准测试套件
- 以直观的 Python 原生方式定义任务和相应的评估器。
- 引入一种新的图评估方法，提供细粒度指标。

安装

先决条件

Python 3.10 或更新版本
pip

bash pip install crab-framework[visual-prompt]

示例

使用 OpenAI 代理运行模板环境

您可以使用以下命令运行示例：

bash export OPENAI_API_KEY=<your api key> python examples/single_env.py python examples/multi_env.py

使用 OpenAI 代理运行桌面环境

您可以使用以下命令运行示例：

bash export OPENAI_API_KEY=<your api key> python examples/desktop_env.py "Open Firefox"

引用

如果您在工作中使用了相关内容，请引用我们的论文：

@misc{xu2024crab, title={CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents}, author={Tianqi Xu and Linyao Chen and Dai-Jie Wu and Yanjun Chen and Zecheng Zhang and Xiang Yao and Zhiqiang Xie and Yongchao Chen and Shilong Liu and Bochen Qian and Philip Torr and Bernard Ghanem and Guohao Li}, year={2024}, eprint={2407.01511}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2407.01511}, }

搜集汇总

数据集介绍

构建方式

Crab Benchmark-v0 数据集构建于 Crab 框架之上，该框架支持跨环境任务，并包含基于图的细粒度评估方法和任务及评估器的高效构建机制。数据集包含了 100 个在计算机桌面和手机环境中的跨平台任务，旨在评估多模态语言模型 (MLM) 代理在自然语言描述的任务中的表现。这些任务涵盖了从简单到复杂的各种难度级别，涉及日历、电子邮件、地图、网络浏览器和终端等日常应用程序，以及智能手机和桌面之间的常见交互。

特点

Crab Benchmark-v0 数据集的特点在于其跨平台性和细粒度评估。它支持多种设备和平台，并且可以轻松扩展到任何具有 Python 接口的环境。此外，数据集的评估方法采用了图评估器，通过将任务分解为多个子目标，每个子目标分配一个判断函数来验证其完成情况，并以图形结构描述子目标之间的顺序和并行关系。这种方法提供了类似轨迹评估的细粒度指标，同时支持多个有效的解决方案路径，更适合评估涉及多种正确方法的任务。

使用方法

使用 Crab Benchmark-v0 数据集时，研究人员可以将不同的单代理和多代理系统配置应用于测试。数据集提供了多种任务，包括跨平台和单平台任务，以及不同难度级别的任务。通过评估代理在任务上的完成比率、执行效率和成本效率等指标，研究人员可以更好地理解不同 MLM 代理的性能。此外，数据集还提供了详细的评估器和任务构建方法，使得研究人员可以轻松地扩展和修改数据集以适应他们的研究需求。

背景与挑战

背景概述

随着人工智能技术的发展，多模态语言模型（MLMs）在执行自然语言描述的任务中扮演着越来越重要的角色。为了评估MLMs在不同环境下的性能，研究人员开发了多种基准测试框架。然而，现有的基准测试框架往往局限于单一环境，缺乏详细和通用的评估方法，以及构建任务和评估器的复杂性。为了克服这些局限性，我们引入了Crab，这是一个旨在支持跨环境任务的代理基准框架，结合了基于图的细粒度评估方法和高效的机制来构建任务和评估器。我们的框架支持多种设备，并可以轻松扩展到任何具有Python接口的环境。利用Crab，我们开发了一个跨平台的Crab Benchmark-v0，包括100个计算机桌面和手机环境中的任务。我们使用不同的单代理和多代理系统配置评估了四个先进的MLMs。实验结果表明，具有GPT-4o的单代理实现了最佳的完成率35.26%。所有框架代码、代理代码和任务数据集都公开发布在https://github.com/camel-ai/crab。

当前挑战

Crab Benchmark-v0面临的挑战包括：1)所解决的领域问题（例如：ImageNet数据集解决的领域问题是图像分类）的挑战；2)构建过程中所遇到的挑战。具体来说，现有基准测试框架的局限性包括：1)缺乏交互式探索，无法捕获现实世界场景的动态性质；2)通常在单个平台上进行评估，无法满足实际应用中跨平台任务的需求；3)评估方法通常是基于目标的或基于轨迹的，无法准确反映代理在复杂任务上的性能；4)任务创建通常是静态的，无法扩展，限制了任务的多样性和范围。为了解决这些问题，Crab Benchmark-v0采用了基于图的细粒度评估方法，支持跨平台任务，并提供了一个高效的机制来构建任务和评估器。

常用场景

经典使用场景

在多模态语言模型（MLM）领域，Crab Benchmark-v0 是一个重要的基准测试数据集，用于评估跨环境代理的性能。该数据集包含了100个任务，涵盖了计算机桌面和手机环境中的多种常见应用和工具。这些任务旨在模拟真实世界的场景，例如在手机上拍照并发送到桌面进行编辑，从而为MLM代理提供一个具有挑战性的评估平台。通过这个数据集，研究人员可以评估不同配置的MLM代理在跨环境任务中的表现，并找出提高其性能的方法。

实际应用

Crab Benchmark-v0 的实际应用场景包括智能客服、智能家居控制、机器人导航等。在这些场景中，代理需要理解和执行自然语言指令，并能够在不同的设备和平台之间进行交互。通过使用 Crab Benchmark-v0 进行训练和评估，代理可以学会如何有效地处理跨环境任务，从而提高其在实际应用中的性能和可靠性。

衍生相关工作

Crab Benchmark-v0 衍生了一系列相关的经典工作，例如 Camel、Metagpt、AutoGen 等。这些工作利用 Crab 框架评估了不同类型的代理，包括多代理系统、多模态代理和操作系统控制代理。此外，Crab Benchmark-v0 还促进了新的评估方法和任务构建方法的研究，例如基于图的细粒度评估方法和子任务组合方法。这些方法为跨环境代理的研究提供了新的思路和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集