Mind2Web, WebArena, AgentInstruct
收藏数据集概述
JungleGym 提供了一个开放源代码的测试和开发平台,用于构建和测试自主网络代理。该平台包括以下三个主要数据集:
-
Mind2Web
- 包含约2000个任务的地面真实数据,覆盖137个网站,包括完整的HTML页面状态和截图。
- 适用于广泛的测试和开发,支持根据网站、任务和注释ID进行过滤。
- 数据可通过API和JungleGym访问。
-
WebArena
- 包含一个任务数据集和6个现实、完全功能的沙盒网站。
- 适用于深入测试多个任务和路径,仅显示最终地面真实响应。
- 数据可通过API和JungleGym访问。
-
AgentInstruct
- 包含约1800个代理轨迹,设计用于微调语言模型(如llama2)。
- 数据以对话/聊天形式提供,适用于微调大型语言模型。
- 数据可通过API访问。
数据集使用示例
-
Mind2Web python import requests import json
task_annotation_id = 4bc70fa1-e817-405f-b113-0919e8e94205 url = f"http://api.junglegym.ai/get_list_of_actions?annotation_id={task_annotation_id}" response = requests.get(url) data = response.json()
print("Number of total steps to accomplish this task:", len(data[action_reprs])) print ("Ground truth action for first step:", data[action_reprs][0]) print ("HTML Element data for this first step:", data[actions][0][pos_candidates])
-
WebArena python import requests import json
WebArena_task = What is the price range for products from ugreen? url = f"http://api.junglegym.ai/get_webarena_by_task?task={WebArena_task}" response = requests.get(url) data = response.json()
print(data[data][0][eval][reference_answers][must_include])
-
AgentInstruct python import requests import json
url = f"http://api.junglegym.ai/load_agent_instruct" response = requests.get(url) data = response.json()
print("Number of total conversations:", len(data[data])) print(data[data][1000][conversations]) print(data[data][1000][id])




