five

Anish13/web-agent-graph-dataset

收藏
Hugging Face2026-05-02 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Anish13/web-agent-graph-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含以图格式呈现的网页导航任务,带有单步负面样本,用于训练奖励模型。数据集格式为JSON Lines (JSONL),包含约18K条目,来自2.8K任务,覆盖了GitLab、OpenStreetMap、Reddit、Shopping、Shopping Admin等多个领域。每个JSON对象包含三个主要部分:graph_data(任务元数据)、node_data(当前状态信息)和step_data(动作和结果)。

This dataset contains web navigation tasks in graph format with single-step negatives for training reward models. The dataset format is JSON Lines (JSONL), with ~18K entries from 2.8K tasks, covering domains such as GitLab, OpenStreetMap, Reddit, Shopping, and Shopping Admin. Each JSON object includes three main sections: graph_data (task metadata), node_data (current state information), and step_data (action and outcome).
提供机构:
Anish13
搜集汇总
数据集介绍
main_image_url
构建方式
Web Agent Grouped Graph Dataset 是专为训练网页导航任务中的奖励模型而构建的高质量数据集,其构建基于将完整的交互轨迹以分组图格式进行结构化存储。每个数据条目对应特定导航任务中的一个步骤,系统性地收集了任务标识、操作目标、所属领域及步骤索引等元信息。构建过程的核心在于对同一状态下的所有候选动作进行分组记录,包括标注为'gold'的正确动作与标注为'negative'的负例动作,负例进一步细分为简单负例、困难负例与绕路负例,并附有动作执行后的下一状态截图与可访问性树观测数据,从而形成可用于偏好学习的稠密反馈信号。
特点
该数据集的核心特点在于其全面的历史轨迹保留与分组候选动作设计,每个条目均包含从初始状态到当前步骤的完整状态序列,涵盖截图、URL与观测文本,为模型提供足量的上下文理解基础。尤为突出的是,所有候选动作均来自同一当前状态,并附带明确的标签与负例类型分类,使得模型能够直接学习区分最优动作与各类次优动作。数据集覆盖GitLab、OpenStreetMap、Reddit、购物及购物管理五个真实领域,总计约2.8K条步骤条目,规模适中但质量精良,特别适合用于奖励建模中的动作排序与偏好学习任务。
使用方法
使用该数据集时,可通过标准JSON Lines格式逐行加载,每行包含任务目标、历史状态序列、当前状态信息及分组候选动作列表。典型应用流程包括:遍历数据集条目,提取当前状态与候选动作;对每一个候选动作,利用其标签进行正负例划分,并通过next_state等字段获取下一状态信息。用户可将当前状态与候选动作输入奖励模型,计算每个动作的奖励分数,并通过对比gold动作与negative动作的分数差异来优化模型参数。该格式天然支持成对比较与列表排序训练策略,亦可用于构建基于偏好对比的强化学习信号,实现高效的网页导航代理训练。
背景与挑战
背景概述
在强化学习与交互式智能体研究领域,Web导航任务因其高度动态的环境、复杂的动作空间以及长程依赖的决策特性,长期被视为评估智能体泛化能力与可靠性的重要基准。web-agent-graph-dataset数据集由相关研究团队于2024年前后构建,核心研究问题聚焦于如何在多步骤Web导航任务中训练出能够精确区分有效动作与误导性动作的奖励模型。该数据集以图结构形式组织,涵盖GitLab、OpenStreetMap、Reddit、购物及购物管理五大典型Web领域,包含约2800个逐步任务条目,为偏好学习与奖励建模提供了结构化的训练样本。其发布的MIT开源许可协议促进了学术界与工业界的广泛采用,对推动基于Web的自主智能体研究产生了重要影响。
当前挑战
该数据集旨在应对两大核心挑战。领域问题层面,Web导航任务中的奖励稀疏性、状态与动作空间的异构性以及负面动作的多样性(如简单负例、困难负例与绕路负例),使得传统奖励模型难以准确捕捉任务完成意图,亟需一种能够同时纳入完整历史轨迹与候选动作排序的训练范式。构建过程中,研究人员需从多种真实Web平台中收集完整导航轨迹,并人工标注每个状态下的最优动作与多种类型负面动作,同时确保相邻状态间的截图、URL及可访问性树等元数据的一致性,这要求在数据采集与清洗阶段解决跨域差异、长序列对齐及标注歧义等工程挑战,从而维护数据集的高质量与可复现性。
常用场景
经典使用场景
在智能体导航与决策系统的研究浪潮中,web-agent-graph-dataset 数据集为基于偏好的奖励模型训练提供了精密的实验平台。其核心用途在于利用分组图结构,完整记录web导航任务中每一步的历史轨迹与候选动作,从而构建偏好学习的数据基石。研究人员可借助该数据集,将同一状态下标记为“gold”的正确动作与各类负例动作进行对比学习,训练出能够区分高效与低效导航路径的奖励模型。通过这种方法,智能体得以从人类专家示范与错误路径中汲取经验,逐步优化在复杂网页环境中的行动策略。
实际应用
在工业级自动化场景中,该数据集的价值体现在多个真实部署方向。例如,电子商务网站可利用基于该数据集训练的奖励模型,驱动智能客服机器人模拟复杂购物流程(如商品查找、添加至购物车等闭环操作),提升用户交互体验。开源平台与社区管理场景(如GitLab、Reddit)中,模型可学习执行权限配置、内容审核等重复性管理任务,降低人工运维成本。此外,在地理信息系统(如OpenStreetMap)中,智能体可依据奖励信号自主完成数据检索与地图编辑操作,显著提升空间数据处理的自动化水平。这些实际应用不仅提高了各行业的工作效率,还促进了人机协作范式的智能化升级。
衍生相关工作
该数据集的面世催生了一系列具有启发意义的衍生研究。在奖励建模领域,研究者们基于其分组图结构提出了多层级对比偏好学习框架,显著提升了动作排序的鲁棒性。同时,针对历史状态融合问题,涌现出若干融合视觉与语义信息的递归奖励模型,有效缓解了长序列任务中的遗忘效应。此外,该数据集还激发了关于负例类型分类(如hard_negative与detour_negative)的细致探讨,衍生出面向难例挖掘的主动学习策略,进一步提升了模型在复杂导航场景中的泛化能力。这些工作共同编织了一个围绕web智能体奖励学习的活跃研究生态,持续推动着前沿技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作