Mind2Web, WebArena, AgentInstruct

github2023-12-05 更新2024-05-31 收录

下载链接：

https://github.com/a16z-infra/JungleGym

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了3个网络代理数据集（可通过API和JungleGym访问）：Mind2Web、WebArena和AgentInstruct。

本平台倾力呈现三款网络代理数据集，分别为Mind2Web、WebArena及AgentInstruct，用户可通过API接口及JungleGym平台进行访问。

创建时间：

2023-11-15

原始信息汇总

数据集概述

JungleGym 提供了一个开放源代码的测试和开发平台，用于构建和测试自主网络代理。该平台包括以下三个主要数据集：

Mind2Web
- 包含约2000个任务的地面真实数据，覆盖137个网站，包括完整的HTML页面状态和截图。
- 适用于广泛的测试和开发，支持根据网站、任务和注释ID进行过滤。
- 数据可通过API和JungleGym访问。
WebArena
- 包含一个任务数据集和6个现实、完全功能的沙盒网站。
- 适用于深入测试多个任务和路径，仅显示最终地面真实响应。
- 数据可通过API和JungleGym访问。
AgentInstruct
- 包含约1800个代理轨迹，设计用于微调语言模型（如llama2）。
- 数据以对话/聊天形式提供，适用于微调大型语言模型。
- 数据可通过API访问。

数据集使用示例

Mind2Web python import requests import json

task_annotation_id = 4bc70fa1-e817-405f-b113-0919e8e94205 url = f"http://api.junglegym.ai/get_list_of_actions?annotation_id={task_annotation_id}" response = requests.get(url) data = response.json()

print("Number of total steps to accomplish this task:", len(data[action_reprs])) print ("Ground truth action for first step:", data[action_reprs][0]) print ("HTML Element data for this first step:", data[actions][0][pos_candidates])
WebArena python import requests import json

WebArena_task = What is the price range for products from ugreen? url = f"http://api.junglegym.ai/get_webarena_by_task?task={WebArena_task}" response = requests.get(url) data = response.json()

print(data[data][0][eval][reference_answers][must_include])
AgentInstruct python import requests import json

url = f"http://api.junglegym.ai/load_agent_instruct" response = requests.get(url) data = response.json()

print("Number of total conversations:", len(data[data])) print(data[data][1000][conversations]) print(data[data][1000][id])

搜集汇总

数据集介绍

构建方式

Mind2Web、WebArena和AgentInstruct数据集的构建依托于JungleGym平台，该平台为开发者提供了一个开源的环境，用于测试和开发自主网络代理。这些数据集通过API和JungleGym游乐场提供，涵盖了从网页状态到任务轨迹的丰富信息。具体而言，Mind2Web数据集包含了约2000个任务的地面真实数据，覆盖了137个网站，每个任务都附带了完整的HTML页面状态和截图。WebArena则提供了6个完全功能的沙盒网站，用于深度测试多种任务路径。AgentInstruct数据集则专注于为语言模型微调提供约1800条代理轨迹，形式为对话式LLM。

特点

Mind2Web数据集的特点在于其广泛的任务覆盖和详细的网页状态记录，适合进行跨网站和任务的广泛测试。WebArena数据集则以其深度测试能力著称，提供了多个任务路径的测试环境，适合在单一网站上进行多任务测试。AgentInstruct数据集则以其对话式的数据形式，为语言模型的微调提供了丰富的代理任务轨迹，特别适合用于增强LLM在代理任务上的表现。

使用方法

使用这些数据集的方法主要通过JungleGym API进行。开发者可以通过API获取任务的地面真实数据，与自主开发的网络代理进行对比测试。例如，使用Mind2Web数据集时，开发者可以通过指定任务和注释ID获取地面真实动作列表，与代理的动作进行对比。WebArena数据集则允许开发者获取特定任务的最终地面真实响应，用于验证代理的准确性。AgentInstruct数据集则提供了完整的对话轨迹，开发者可以将其用于语言模型的微调，以提升模型在代理任务上的表现。

背景与挑战

背景概述

JungleGym项目由Marco Mascorro和Matt Bornstein于2023年11月推出，旨在为开发自主网络代理提供一个开源平台。该项目包含三个核心数据集：Mind2Web、WebArena和AgentInstruct。Mind2Web数据集涵盖了137个网站上的约2000个任务，提供了完整的HTML页面状态和截图，适用于广泛的测试和开发。WebArena则提供了6个功能齐全的沙盒网站，专注于深度测试单一网站上的多种任务路径。AgentInstruct则包含约1800个代理轨迹，专为语言模型的微调设计。这些数据集通过JungleGym API和Playground平台开放给开发者使用，推动了自主网络代理领域的研究与应用。

当前挑战

JungleGym数据集在解决自主网络代理领域的问题时面临多重挑战。首先，Mind2Web和WebArena数据集需要处理复杂的网页结构和多样化的任务路径，这对代理的DOM解析和任务执行能力提出了高要求。其次，AgentInstruct数据集的目标是微调语言模型以更好地处理代理任务，然而，如何有效整合这些轨迹数据并确保模型的泛化能力仍是一个难题。在构建过程中，数据集的创建者还需应对网页动态变化、任务多样性和数据标注的复杂性，这些因素增加了数据集的构建难度。此外，随着多模态模型的兴起，如何将视觉信息与HTML/DOM交互结合，进一步提升代理的性能，也是未来需要解决的关键挑战。

常用场景

经典使用场景

在自主网络代理的开发与测试领域，Mind2Web、WebArena和AgentInstruct数据集为研究人员和开发者提供了丰富的实验平台。这些数据集通过提供真实网页的HTML状态、截图以及任务轨迹，使得开发者能够在多样化的网站和任务场景中测试其代理的性能。例如，Mind2Web数据集涵盖了137个网站的2000多个任务，开发者可以通过API获取任务的真实操作步骤，从而验证其代理的准确性。

实际应用

在实际应用中，这些数据集被广泛用于电子商务、信息检索和自动化任务等领域。例如，WebArena数据集通过模拟真实的购物网站，帮助开发者测试代理在复杂任务中的表现，如价格查询和商品推荐。这种应用不仅提升了代理的实用性，还为电子商务平台的自动化服务提供了技术支持。

衍生相关工作

基于这些数据集，许多经典研究工作得以展开。例如，AgentTuning项目利用AgentInstruct数据集对语言模型进行微调，显著提升了模型在代理任务中的表现。此外，TreeVoyager工具的开发也受益于这些数据集，通过结合树状思维和DOM解析技术，进一步优化了代理的网页交互能力。这些工作不仅推动了自主代理技术的发展，也为相关领域的研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集