five

Mind2Web, WebArena, AgentInstruct

收藏
github2023-12-05 更新2024-05-31 收录
下载链接:
https://github.com/a16z-infra/JungleGym
下载链接
链接失效反馈
官方服务:
资源简介:
我们提供了3个网络代理数据集(可通过API和JungleGym访问):Mind2Web、WebArena和AgentInstruct。

本平台倾力呈现三款网络代理数据集,分别为Mind2Web、WebArena及AgentInstruct,用户可通过API接口及JungleGym平台进行访问。
创建时间:
2023-11-15
原始信息汇总

数据集概述

JungleGym 提供了一个开放源代码的测试和开发平台,用于构建和测试自主网络代理。该平台包括以下三个主要数据集:

  1. Mind2Web

    • 包含约2000个任务的地面真实数据,覆盖137个网站,包括完整的HTML页面状态和截图。
    • 适用于广泛的测试和开发,支持根据网站、任务和注释ID进行过滤。
    • 数据可通过API和JungleGym访问。
  2. WebArena

    • 包含一个任务数据集和6个现实、完全功能的沙盒网站。
    • 适用于深入测试多个任务和路径,仅显示最终地面真实响应。
    • 数据可通过API和JungleGym访问。
  3. AgentInstruct

    • 包含约1800个代理轨迹,设计用于微调语言模型(如llama2)。
    • 数据以对话/聊天形式提供,适用于微调大型语言模型。
    • 数据可通过API访问。

数据集使用示例

  1. Mind2Web python import requests import json

    task_annotation_id = 4bc70fa1-e817-405f-b113-0919e8e94205 url = f"http://api.junglegym.ai/get_list_of_actions?annotation_id={task_annotation_id}" response = requests.get(url) data = response.json()

    print("Number of total steps to accomplish this task:", len(data[action_reprs])) print ("Ground truth action for first step:", data[action_reprs][0]) print ("HTML Element data for this first step:", data[actions][0][pos_candidates])

  2. WebArena python import requests import json

    WebArena_task = What is the price range for products from ugreen? url = f"http://api.junglegym.ai/get_webarena_by_task?task={WebArena_task}" response = requests.get(url) data = response.json()

    print(data[data][0][eval][reference_answers][must_include])

  3. AgentInstruct python import requests import json

    url = f"http://api.junglegym.ai/load_agent_instruct" response = requests.get(url) data = response.json()

    print("Number of total conversations:", len(data[data])) print(data[data][1000][conversations]) print(data[data][1000][id])

搜集汇总
数据集介绍
main_image_url
构建方式
Mind2Web、WebArena和AgentInstruct数据集的构建依托于JungleGym平台,该平台为开发者提供了一个开源的环境,用于测试和开发自主网络代理。这些数据集通过API和JungleGym游乐场提供,涵盖了从网页状态到任务轨迹的丰富信息。具体而言,Mind2Web数据集包含了约2000个任务的地面真实数据,覆盖了137个网站,每个任务都附带了完整的HTML页面状态和截图。WebArena则提供了6个完全功能的沙盒网站,用于深度测试多种任务路径。AgentInstruct数据集则专注于为语言模型微调提供约1800条代理轨迹,形式为对话式LLM。
特点
Mind2Web数据集的特点在于其广泛的任务覆盖和详细的网页状态记录,适合进行跨网站和任务的广泛测试。WebArena数据集则以其深度测试能力著称,提供了多个任务路径的测试环境,适合在单一网站上进行多任务测试。AgentInstruct数据集则以其对话式的数据形式,为语言模型的微调提供了丰富的代理任务轨迹,特别适合用于增强LLM在代理任务上的表现。
使用方法
使用这些数据集的方法主要通过JungleGym API进行。开发者可以通过API获取任务的地面真实数据,与自主开发的网络代理进行对比测试。例如,使用Mind2Web数据集时,开发者可以通过指定任务和注释ID获取地面真实动作列表,与代理的动作进行对比。WebArena数据集则允许开发者获取特定任务的最终地面真实响应,用于验证代理的准确性。AgentInstruct数据集则提供了完整的对话轨迹,开发者可以将其用于语言模型的微调,以提升模型在代理任务上的表现。
背景与挑战
背景概述
JungleGym项目由Marco Mascorro和Matt Bornstein于2023年11月推出,旨在为开发自主网络代理提供一个开源平台。该项目包含三个核心数据集:Mind2Web、WebArena和AgentInstruct。Mind2Web数据集涵盖了137个网站上的约2000个任务,提供了完整的HTML页面状态和截图,适用于广泛的测试和开发。WebArena则提供了6个功能齐全的沙盒网站,专注于深度测试单一网站上的多种任务路径。AgentInstruct则包含约1800个代理轨迹,专为语言模型的微调设计。这些数据集通过JungleGym API和Playground平台开放给开发者使用,推动了自主网络代理领域的研究与应用。
当前挑战
JungleGym数据集在解决自主网络代理领域的问题时面临多重挑战。首先,Mind2Web和WebArena数据集需要处理复杂的网页结构和多样化的任务路径,这对代理的DOM解析和任务执行能力提出了高要求。其次,AgentInstruct数据集的目标是微调语言模型以更好地处理代理任务,然而,如何有效整合这些轨迹数据并确保模型的泛化能力仍是一个难题。在构建过程中,数据集的创建者还需应对网页动态变化、任务多样性和数据标注的复杂性,这些因素增加了数据集的构建难度。此外,随着多模态模型的兴起,如何将视觉信息与HTML/DOM交互结合,进一步提升代理的性能,也是未来需要解决的关键挑战。
常用场景
经典使用场景
在自主网络代理的开发与测试领域,Mind2Web、WebArena和AgentInstruct数据集为研究人员和开发者提供了丰富的实验平台。这些数据集通过提供真实网页的HTML状态、截图以及任务轨迹,使得开发者能够在多样化的网站和任务场景中测试其代理的性能。例如,Mind2Web数据集涵盖了137个网站的2000多个任务,开发者可以通过API获取任务的真实操作步骤,从而验证其代理的准确性。
实际应用
在实际应用中,这些数据集被广泛用于电子商务、信息检索和自动化任务等领域。例如,WebArena数据集通过模拟真实的购物网站,帮助开发者测试代理在复杂任务中的表现,如价格查询和商品推荐。这种应用不仅提升了代理的实用性,还为电子商务平台的自动化服务提供了技术支持。
衍生相关工作
基于这些数据集,许多经典研究工作得以展开。例如,AgentTuning项目利用AgentInstruct数据集对语言模型进行微调,显著提升了模型在代理任务中的表现。此外,TreeVoyager工具的开发也受益于这些数据集,通过结合树状思维和DOM解析技术,进一步优化了代理的网页交互能力。这些工作不仅推动了自主代理技术的发展,也为相关领域的研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作