WorkBench

github2024-05-10 更新2024-05-31 收录

下载链接：

https://github.com/olly-styles/WorkBench

下载链接

链接失效反馈

官方服务：

资源简介：

WorkBench是首个开源基准，用于评估代理在现实工作场所任务中的表现。该数据集由MindsDB创建，包含五个沙盒数据库、任务-结果对以及预计算的推理结果，所有数据均在`data`目录中提供。

WorkBench is the first open-source benchmark designed to evaluate the performance of agents in real-world workplace tasks. Created by MindsDB, this dataset includes five sandbox databases, task-result pairs, and precomputed inference results, all provided within the `data` directory.

创建时间：

2024-01-16

原始信息汇总

数据集概述

数据内容

包含五个沙盒数据库、任务-结果对以及预计算的推理结果，均位于data目录下。
所有生成的数据，包括模拟数据和查询答案，均已预计算并存储在data目录中。

数据使用

评估: 用户可以直接使用提供的预计算推理结果，无需运行推理即可重现论文中的评估结果。使用python scripts/evals/calculate_all_metrics.py命令计算所有指标。
数据生成: 若需自行生成数据，可运行python scripts/data_generation/mocked_data/generate_all_mocked_data.py和python scripts/data_generation/query_answer_generation/generate_all_query_and_answer.py。
推理: 预计算的推理结果已提供。若需自行运行推理，需提供相应的API密钥。

推理配置

API密钥需求:
- 对于GPT-3.5和GPT-4，需要OpenAI密钥。
- 对于Claude-2，需要Anthropic密钥。
- 对于llama2-70b和mistral-8x7B，需要Anyscale密钥。

新代理支持

支持添加新代理，具体取决于新代理与现有代理的差异：
- 若新代理与现有代理相同但使用不同提示，可直接修改提示。
- 若新代理使用的LLM被LangChain支持但当前未实现，可添加到支持的LLMs列表中。
- 若要实现非LangChain框架的新代理，需更新推理循环。

术语说明

“查询”和“答案”原指任务和结果，已在论文中更新术语，但代码尚未更新。
“模拟数据”原指沙盒数据库，已在论文中更新术语，但代码尚未更新。

搜集汇总

数据集介绍

构建方式

WorkBench数据集由MindsDB团队精心构建，旨在评估智能体在真实工作场景中的表现。该数据集通过模拟真实工作环境中的任务与结果对，结合预计算的推理结果，形成了一个全面的基准测试平台。数据生成过程包括模拟数据的创建和查询答案的生成，确保了数据的真实性和多样性。

特点

WorkBench数据集的显著特点在于其开放性和全面性。它不仅提供了五个沙盒数据库和任务结果对，还包含了预计算的推理结果，便于用户快速评估模型性能。此外，数据集支持多种大型语言模型（如GPT-3.5、GPT-4等）的推理，并允许用户自定义新代理的实现，增强了其灵活性和扩展性。

使用方法

使用WorkBench数据集时，用户可以直接利用提供的预计算推理结果进行评估，无需重新运行推理过程。通过运行特定的Python脚本，用户可以计算各项评估指标。若需自定义数据生成或推理，用户可根据提供的脚本进行操作，并根据需要添加新的API密钥以支持不同的模型。此外，数据集还提供了详细的文档和FAQ，帮助用户快速上手并解决常见问题。

背景与挑战

背景概述

WorkBench数据集由MindsDB团队创建，是首个用于评估智能体在真实工作场景任务中表现的开源基准。该数据集的核心研究问题聚焦于智能体在复杂工作环境中的任务执行能力，旨在为智能体性能评估提供标准化工具。其创建时间为2024年，主要研究人员包括Jorge Torres和Adam Carrigan等，相关研究成果已发表于arXiv平台（https://arxiv.org/abs/2405.00823）。WorkBench的推出填补了智能体在工作场景中性能评估的空白，对智能体技术在实际应用中的推广具有重要意义。

当前挑战

WorkBench数据集在构建过程中面临多项挑战。首先，如何设计能够真实反映工作场景复杂性的任务是关键问题，这要求数据集不仅涵盖多样化的任务类型，还需模拟真实的工作环境。其次，智能体在执行任务时的表现评估需要精确且可重复的指标，这涉及到对任务结果的量化与标准化。此外，数据集的生成与推理过程依赖于多种API密钥，如何确保数据生成的可重复性与隐私安全也是一大挑战。最后，支持新智能体的集成与评估需要灵活的框架设计，以适应不同智能体的特性与需求。

常用场景

经典使用场景

WorkBench数据集的经典使用场景主要集中在评估和比较不同智能体在实际工作任务中的表现。通过提供预计算的推理结果和任务-结果对，研究人员可以快速复现和验证智能体在复杂工作环境中的性能。这一数据集特别适用于那些需要对智能体进行基准测试和性能优化的研究领域，如自然语言处理和自动化任务执行。

实际应用

在实际应用中，WorkBench数据集被广泛用于智能体在企业自动化任务中的表现评估。例如，企业可以利用该数据集来测试和优化智能体在处理客户服务查询、数据分析和报告生成等任务中的表现。此外，WorkBench还可以帮助企业在部署智能体之前，对其进行全面的性能评估，从而确保其在实际工作环境中的高效性和可靠性。

衍生相关工作

WorkBench数据集的发布催生了一系列相关的经典工作，特别是在智能体评估和优化领域。许多研究者基于该数据集开发了新的评估方法和模型优化技术，进一步提升了智能体在实际任务中的表现。此外，WorkBench还激发了对智能体在不同工作环境中的适应性和鲁棒性研究，推动了智能体技术在更广泛领域的应用和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集