TheAgentCompany

Name: TheAgentCompany
Creator: 卡内基梅隆大学
Published: 2024-12-19 02:55:40
License: 暂无描述

arXiv2024-12-19 更新2024-12-20 收录

下载链接：

https://the-agent-company.com

下载链接

链接失效反馈

官方服务：

资源简介：

TheAgentCompany是一个用于评估AI代理在真实工作环境中执行任务的扩展性基准。该数据集模拟了一个小型软件公司环境，包含175个多样化的、现实且专业的任务，涉及软件工程、项目管理、财务分析等多个领域。数据集通过构建一个自包含的环境，使用开源软件和模拟同事来测试代理的交互能力。创建过程包括任务定义、环境设置和任务评估，旨在解决AI代理在实际工作场景中的自动化和加速任务执行问题。

TheAgentCompany is a scalability benchmark designed to evaluate AI Agents performing tasks in real-world work environments. This dataset simulates a small software company environment, containing 175 diverse, realistic and professional tasks spanning multiple domains such as software engineering, project management, financial analysis and more. Built upon a self-contained environment, it leverages open-source software and simulated colleagues to test the interactive capabilities of AI Agents. Its development process covers task definition, environment setup and task evaluation, aiming to address the challenges of automating and accelerating task execution for AI Agents in real-world work scenarios.

提供机构：

卡内基梅隆大学

创建时间：

2024-12-19

原始信息汇总

数据集概述

数据集名称

The Agent Company

数据集描述

The Agent Company 是一个用于评估大型语言模型（LLM）代理在执行现实世界专业任务中的性能的基准。该基准通过提供一个可扩展的评估框架，测量 AI 代理在与数字工作者相似的方式下与世界交互的能力，包括浏览网页、编写代码、运行程序和与其他同事沟通。

数据集目标

该数据集的目标是帮助行业了解 AI 代理在实际工作流程中的表现，并为经济政策制定者提供关于 AI 采用对劳动力市场影响的见解。

数据集内容

架构图：展示了 The Agent Company 的架构（TAC_architecture.png）。
服务演示视频：展示了不同服务的集成，包括 GitLab、Plane、RocketChat 和 OwnCloud。
代理演示视频：展示了代理如何与不同服务交互，包括项目创建和单元测试覆盖率。

引用

@misc{xu2024theagentcompanybenchmarkingllmagents, title={TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks}, author={Frank F. Xu and Yufan Song and Boxuan Li and Yuxuan Tang and Kritanjali Jain and Mengxue Bao and Zora Z. Wang and Xuhui Zhou and Zhitong Guo and Murong Cao and Mingyang Yang and Hao Yang Lu and Amaad Martin and Zhe Su and Leander Maben and Raj Mehta and Wayne Chi and Lawrence Jang and Yiqing Xie and Shuyan Zhou and Graham Neubig}, year={2024}, eprint={2412.14161}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.14161}, }

联系信息

主要联系人：
- Frank F. Xu (fangzhex@cs.cmu.edu)
- Yufan Song (yufans@alumni.cmu.edu)
- Boxuan Li (boxuanli@alumni.cmu.edu)
GitHub 问题：创建问题

搜集汇总

数据集介绍

构建方式

TheAgentCompany数据集通过构建一个模拟的软件公司环境来评估AI代理在实际工作任务中的表现。该环境包括一个本地工作空间和一个模拟公司内部网站的内部网络，涵盖了代码库、文档存储、项目管理和通信工具等。任务设计参考了O*NET数据库中的真实工作任务，涵盖了软件工程、项目管理、财务分析等多个领域。任务的构建过程包括定义任务意图、设置检查点、编写评估脚本以及导入必要的任务数据，确保任务的多样性和真实性。

使用方法

TheAgentCompany数据集适用于评估AI代理在复杂工作环境中的表现，特别适合用于测试大型语言模型（LLM）驱动的代理在处理实际工作任务时的能力。用户可以通过运行数据集中的任务来评估代理的自动化能力、任务完成率以及与模拟同事的交互效果。数据集提供了详细的任务描述、检查点和评估脚本，用户可以根据这些信息设计实验，测试不同模型的性能，并分析其在不同任务类型和平台上的表现。

背景与挑战

背景概述

TheAgentCompany数据集由Carnegie Mellon University、Independent和Duke University的研究团队于2024年创建，旨在评估大型语言模型（LLM）代理在真实世界任务中的表现。该数据集的核心研究问题是：LLM代理在多大程度上能够自主完成工作相关的任务，尤其是在软件工程、项目管理、财务分析等专业领域。通过构建一个模拟的软件公司环境，TheAgentCompany数据集提供了一个可扩展的基准，用于测试代理在浏览网页、编写代码、运行程序以及与模拟同事进行交互等任务中的表现。该数据集的发布对AI在实际工作流程中的应用具有重要意义，尤其是在自动化和加速工作任务方面，为行业和政策制定者提供了宝贵的参考。

当前挑战

TheAgentCompany数据集在构建和应用过程中面临多项挑战。首先，创建一个模拟真实工作环境的基准需要涵盖多种复杂任务，这些任务不仅涉及技术操作，还包括与模拟同事的交互，这对代理的沟通能力和复杂任务处理能力提出了高要求。其次，数据集的构建过程中，研究人员需要设计多样化的任务，确保这些任务能够反映真实工作场景中的挑战，如长时任务的执行、多步骤任务的协调以及复杂用户界面的导航。此外，评估代理的表现时，如何准确衡量其在部分完成任务时的表现也是一个技术难题。最后，尽管当前最先进的LLM代理在某些任务上表现出色，但仍有大量任务无法完全自动化，尤其是在涉及复杂社交互动和专业知识深度应用的场景中，代理的表现仍显不足。

常用场景

经典使用场景

TheAgentCompany数据集的经典使用场景主要集中在评估和测试大型语言模型（LLMs）在模拟真实工作环境中的表现。该数据集通过构建一个模拟的软件公司环境，设计了多种与软件工程、项目管理、财务分析等相关的任务，要求AI代理能够浏览网页、编写代码、运行程序并与模拟同事进行交互。这些任务旨在模拟数字工作者在日常工作中的行为，从而评估AI代理在复杂、多步骤任务中的自主完成能力。

解决学术问题

TheAgentCompany数据集解决了当前AI代理在处理复杂、多步骤任务时的性能评估问题。通过提供一个可扩展的基准测试环境，该数据集不仅展示了现有LLM代理在加速或自动化日常工作任务中的潜力，还揭示了其在处理长时任务、复杂交互和多平台操作时的局限性。这一研究对推动AI在实际工作场景中的应用具有重要意义，并为政策制定者提供了关于AI对劳动力市场潜在影响的量化依据。

实际应用

TheAgentCompany数据集的实际应用场景广泛，涵盖了软件开发、项目管理、财务分析等多个领域。例如，在软件开发中，AI代理可以用于自动化代码编写、版本控制和错误修复；在项目管理中，AI代理可以帮助规划项目进度、分配任务并与团队成员进行沟通；在财务分析中，AI代理可以处理数据收集、报表生成和预算管理等任务。这些应用场景展示了AI代理在提升工作效率、减少人为错误和优化资源分配方面的潜力。

数据集最近研究