Awesome Agent Benchmarks

github2025-12-21 更新2025-12-23 收录

下载链接：

https://github.com/dataanswer/awesome-agent-benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

一个精选的全球最先进的基准数据集集合，用于评估大型语言模型（LLM）代理。涵盖核心能力，包括工具使用、多轮对话、代码生成、规划与推理以及真实世界任务执行，使研究人员和开发人员能够高效评估代理性能。

A curated collection of state-of-the-art benchmark datasets for evaluating Large Language Model (LLM) agents. This collection covers core capabilities including tool use, multi-turn dialogue, code generation, planning and reasoning, and real-world task execution, enabling researchers and developers to efficiently assess agent performance.

创建时间：

2025-12-21

原始信息汇总

Awesome Agent Benchmarks 数据集概述

数据集基本信息

数据集名称: Awesome Agent Benchmarks
维护者: DataAnswer (XuChao)
创建/维护年份: 2025
许可证:
- 网站代码: MIT License
- 数据集元数据（描述、类别、链接）: CC BY 4.0
访问地址: https://github.com/dataanswer/awesome-agent-benchmarks
在线浏览工具: AgentBench Navigator (https://www.dataanswer.top/)

数据集目的与特点

这是一个精心策划的、用于评估大型语言模型（LLM）智能体（Agent）的先进基准测试数据集集合。旨在解决该领域数据集分散、缺乏统一分类和关键指标比较、以及更新不及时的问题。其核心特点是提供经过人工审核的高质量智能体评估数据集、结构化的分类与元数据，并持续更新以跟上最新研究进展。

涵盖的核心能力评估范围

工具使用
多轮对话
代码生成
规划与推理
真实世界任务执行

数据集分类与内容摘要

数据集按评估环境（平台）进行分类，主要类别及代表性基准如下：

🔍 GUI Agent

Web 环境

MiniWoB++ (2017): 评估智能体在点击、输入、表单导航等基本网页交互上的能力。包含100个网页交互任务。
RUSS (2021): 使用ThingTalk将自然语言映射到网页动作，在真实HTML环境中执行精确的网页任务。包含741条指令。
WebShop (2022): 模拟具有真实产品的电子商务导航，挑战智能体的指令理解、多页面导航和策略探索能力。包含12,087条指令。
Mind2Web (2023): 在跨领域的真实、动态网站上测试智能体的适应性。包含2,000个任务。
Mind2Web-Live (2024): 提供中间动作追踪以实现真实任务评估，包含更新的数据集和标注工具。包含542个任务。
WebArena (2023): 在Docker托管的网站上模拟真实的多标签页浏览，专注于反映真实在线交互的复杂、长视野任务。包含812个长视野任务。
VisualWebArena (2024): 评估多模态智能体在视觉基础任务上的表现，要求其在网页环境中具备视觉和文本交互能力。包含910个任务。
AutoWebBench (2024): 包含10,000条浏览轨迹的双语网页浏览基准，支持跨语言特定环境的评估。
WorkArena (2024): 专注于真实企业软件交互，针对知识工作者频繁执行的任务。包含19,912个独立任务实例。
WEBLINX (2024): 专注于对话式导航，要求智能体在真实、基于对话的网页任务中遵循多轮用户指令。包含100k次交互。

Android 环境

AndroidEnv (2021): 基于Android生态系统的开源平台，包含超过100个任务，专注于各种Android交互的强化学习。
PIXELHELP (2020): 包含跨四个任务类别的自然语言指令与UI动作配对语料库，有助于将语言落地到UI交互。包含187条多步骤指令。
Mobile-Env (2024): 用于Android GUI基准测试的综合工具包，支持对真实应用交互进行受控评估。包含224个任务。
AITW (2023): 大规模数据集，部分灵感来源于PIXELHELP，涵盖多样化的Android交互。包含715,142个片段。
AndroidArena (2024): 专注于Android生态系统内的日常跨应用和约束任务，提供单应用和多应用交互场景。包含221个任务。
MobileAgentBench (2024): 在真实Android设备上提供完全自主的评估过程，并在多条完成路径上灵活判断成功条件。包含跨10个开源Android应用的100个任务。

跨平台/桌面环境

OSWorld (2024): 用于多模态智能体的可扩展、真实计算机环境，支持在Ubuntu、Windows和macOS上进行任务设置、基于执行的评估和交互式学习。包含369个Ubuntu任务和43个Windows任务。
Windows Agent Arena (2024): OSWorld的适配版本，专注于Windows操作系统，包含多样化的多步骤任务。包含154个任务。
OmniACT (2024): 评估智能体在各种操作系统环境中为桌面和网页应用生成可执行程序的能力，优先考虑多模态挑战。包含9,802个数据点。
VideoGUI (2024): 专注于教学视频中的视觉中心任务，强调在Adobe Photoshop和Premiere Pro等应用中的动作规划和精确性。包含178个任务，463个子任务。
AgentStudio (2024): 用于创建和基准测试通用虚拟智能体的开源工具包，支持跨多样化软件应用的复杂交互。
ScreenSpot (2024): 基于视觉的GUI基准测试，具有预训练的GUI落地能力，评估智能体仅使用截图与移动、桌面和网页平台上的GUI元素进行交互的能力。包含1,200条指令。

主要评估指标

数据集使用的常见评估指标包括：

任务成功率
步骤成功率
轮次成功率
效率得分
策略下完成度
风险比率
中间意图成功率

测量方法

数据集使用的常见测量方法包括：

文本匹配
元素匹配
动作匹配
图像匹配
状态信息匹配
路径长度
轨迹长度
基于执行的验证

搜集汇总

数据集介绍

构建方式

在大型语言模型智能体技术迅猛发展的背景下，Awesome Agent Benchmarks 作为一个精心策划的集合，其构建源于对标准化评估工具的迫切需求。该数据集并非通过传统的数据采集或标注流程生成，而是采用了一种系统性的元数据整理方法。构建者从广泛的公开来源，包括GitHub、Hugging Face及学术论文附录中，手动筛选并收录了全球范围内最先进的智能体评估基准。每个入选的数据集都经过严格的审核，确保其质量与相关性，并按照统一的分类学框架（如GUI Agent、移动环境、操作系统等）进行结构化组织。这一过程伴随着持续的更新机制，以紧跟最新研究进展，从而形成了一个动态、全面且可信的基准导航库。

使用方法

对于研究人员与开发者而言，使用该数据集主要在于高效地发现、比较并选择合适的评估基准。用户可以通过其在线门户“AgentBench Navigator”浏览完整的基准列表，利用提供的分类与元数据快速定位到与自身研究领域（如网页交互、移动自动化、桌面任务）相关的评估工具。每个基准条目均附有原始数据源的直接链接，用户可据此访问具体的数据集、代码及评估脚本。在实际应用中，该集合可作为一份权威的参考地图，帮助用户避免重复搜寻工作，直接基于已验证的高质量基准设计实验、评估智能体模型在不同场景下的性能，并理解不同评估指标（如任务成功率、步骤成功率、效率得分）的实际含义与适用场景。

背景与挑战

背景概述

随着大语言模型智能体技术的迅猛发展，标准化评估基准已成为衡量其实际能力的关键标尺。Awesome Agent Benchmarks 由 DataAnswer 团队于 2025 年发起并维护，旨在系统性地整合全球范围内最先进的智能体评估数据集。该资源库聚焦于工具使用、多轮对话、代码生成、规划推理及真实任务执行等核心能力，为研究者和开发者提供了一个统一、结构化的评估导航平台，有效推动了智能体技术研究的透明化与可比性。

当前挑战

在智能体评估领域，核心挑战在于如何设计能够全面反映其复杂交互与泛化能力的基准。现有数据集往往分散于不同平台，缺乏统一的分类体系与关键指标对比，导致跨模型评估困难。此外，构建过程需应对真实环境的高度动态性与多样性，例如网页结构的实时变化、移动应用的多态界面以及跨平台任务的语义一致性，这些因素均对数据采集、标注及评估方法的可靠性提出了严峻考验。

常用场景

经典使用场景

在大型语言模型代理技术迅猛发展的背景下，Awesome Agent Benchmarks作为一套精心策划的评估数据集集合，其最经典的使用场景在于为研究人员和开发者提供一个标准化的“标尺”，用以系统性地衡量智能代理在真实世界任务中的核心能力。该集合覆盖了工具使用、多轮对话、代码生成、规划推理及任务执行等多个维度，使得用户能够高效地对不同代理模型进行横向比较与性能评估，从而加速技术迭代与优化进程。

解决学术问题

该数据集有效解决了智能代理研究领域长期存在的若干关键学术问题。首先，它整合了散落在各平台的评估资源，通过统一分类与元数据管理，缓解了数据集发现与比较的困难。其次，其涵盖的多样化任务场景，如GUI交互、跨平台操作及多模态理解，为探究代理的泛化能力、鲁棒性及安全合规性提供了实证基础。这些工作显著推动了评估方法的标准化，使得学术讨论得以建立在可复现、可量化的共同基础之上。

实际应用

在实际应用层面，Awesome Agent Benchmarks为产业界开发可靠的智能代理系统提供了至关重要的评估框架。例如，通过WebArena、WorkArena等数据集，企业可以模拟复杂的多标签浏览或办公软件交互，测试代理在真实业务环境中的任务完成效率与准确性。同时，AndroidWorld、Mobile-Eval等移动端基准助力优化手机应用的自动化操作体验。这些评估不仅降低了部署风险，也直接指导了产品功能的改进与用户体验的提升。

数据集最近研究