Crab Benchmark-v0
收藏Crab: Cross-platform Agent Benchmark for Multimodal Embodied Language Model Agents
概述
Crab 是一个用于构建 LLM 代理基准环境的框架,以 Python 为中心。
主要特点
-
跨平台
- 创建支持多种部署选项的代理环境,包括内存中、Docker 托管、虚拟机或分布式物理机,前提是它们可以通过 Python 函数访问。
- 通过统一的接口让代理同时访问所有环境。
-
易于使用的配置
- 通过在 Python 函数上添加
@action装饰器来添加新动作。 - 通过整合多个动作来定义环境。
- 通过在 Python 函数上添加
-
新颖的基准测试套件
- 以直观的 Python 原生方式定义任务和相应的评估器。
- 引入一种新的图评估方法,提供细粒度指标。
安装
先决条件
- Python 3.10 或更新版本
- pip
bash pip install crab-framework[visual-prompt]
示例
使用 OpenAI 代理运行模板环境
您可以使用以下命令运行示例:
bash export OPENAI_API_KEY=<your api key> python examples/single_env.py python examples/multi_env.py
使用 OpenAI 代理运行桌面环境
您可以使用以下命令运行示例:
bash export OPENAI_API_KEY=<your api key> python examples/desktop_env.py "Open Firefox"
引用
如果您在工作中使用了相关内容,请引用我们的论文:
@misc{xu2024crab, title={CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents}, author={Tianqi Xu and Linyao Chen and Dai-Jie Wu and Yanjun Chen and Zecheng Zhang and Xiang Yao and Zhiqiang Xie and Yongchao Chen and Shilong Liu and Bochen Qian and Philip Torr and Bernard Ghanem and Guohao Li}, year={2024}, eprint={2407.01511}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2407.01511}, }




