TheAgentCompany
收藏数据集概述
数据集名称
The Agent Company
数据集描述
The Agent Company 是一个用于评估大型语言模型(LLM)代理在执行现实世界专业任务中的性能的基准。该基准通过提供一个可扩展的评估框架,测量 AI 代理在与数字工作者相似的方式下与世界交互的能力,包括浏览网页、编写代码、运行程序和与其他同事沟通。
数据集目标
该数据集的目标是帮助行业了解 AI 代理在实际工作流程中的表现,并为经济政策制定者提供关于 AI 采用对劳动力市场影响的见解。
数据集内容
- 架构图:展示了 The Agent Company 的架构(TAC_architecture.png)。
- 服务演示视频:展示了不同服务的集成,包括 GitLab、Plane、RocketChat 和 OwnCloud。
- 代理演示视频:展示了代理如何与不同服务交互,包括项目创建和单元测试覆盖率。
相关资源
- 论文:TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
- 代码:GitHub 仓库
- 排行榜:Leaderboard
引用
@misc{xu2024theagentcompanybenchmarkingllmagents, title={TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks}, author={Frank F. Xu and Yufan Song and Boxuan Li and Yuxuan Tang and Kritanjali Jain and Mengxue Bao and Zora Z. Wang and Xuhui Zhou and Zhitong Guo and Murong Cao and Mingyang Yang and Hao Yang Lu and Amaad Martin and Zhe Su and Leander Maben and Raj Mehta and Wayne Chi and Lawrence Jang and Yiqing Xie and Shuyan Zhou and Graham Neubig}, year={2024}, eprint={2412.14161}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.14161}, }
联系信息
- 主要联系人:
- Frank F. Xu (fangzhex@cs.cmu.edu)
- Yufan Song (yufans@alumni.cmu.edu)
- Boxuan Li (boxuanli@alumni.cmu.edu)
- GitHub 问题:创建问题

- 1TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks卡内基梅隆大学 · 2024年



