WebSTAR

Name: WebSTAR
Creator: Microsoft
Published: 2026-01-30 08:47:56
License: 暂无描述

Hugging Face2026-01-30 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/microsoft/WebSTAR

下载链接

链接失效反馈

官方服务：

资源简介：

WebSTAR（WebVoyager Step-Level Trajectories with Augmented Reasoning）是一个大规模数据集，用于训练和评估具有步骤级质量评分的计算机使用代理。该数据集是研究论文《Scalable Data Synthesis for Computer Use Agents with Step-Level Filtering》（He et al., 2025）的一部分。与传统轨迹级过滤方法不同，WebSTAR为代理轨迹中的每个动作提供了细粒度的步骤级评分（1-10分），支持更精确的质量评估和选择性训练。数据集包含多模态数据（文本和截图），每个动作均附带详细的评分理由。数据集结构包括系统提示、对话记录（用户请求和代理响应）、截图路径等字段。适用任务包括网页导航和信息检索等。数据集发布在CDLA-Permissive-2.0许可下，允许自由使用、修改和共享。

提供机构：

Microsoft

创建时间：

2026-01-24

搜集汇总

数据集介绍

构建方式

在计算机使用智能体研究领域，WebSTAR数据集的构建体现了对轨迹质量精细化标注的前沿探索。该数据集源自《可扩展的计算机使用智能体数据合成与步骤级过滤》研究，其核心创新在于摒弃了传统的轨迹级过滤方法，转而采用步骤级评分机制。构建过程首先基于OpenWebVoyager项目中的真实网页交互查询，生成了多步骤的网络导航任务轨迹。随后，通过引入评判机制，对轨迹中的每一个智能体动作进行独立评估，赋予其1至10分的质量分数，并为每个分数提供了详尽的、多步骤的推理依据作为评判说明。这种构建方式确保了数据不仅记录了交互序列，更深度刻画了每一步决策的质量与合理性。

特点

WebSTAR数据集以其精细的步骤级评分体系与多模态融合特性而著称。其最显著的特点是每个智能体动作都附有一个从1到10的独立质量评分，并伴随一段解释评分理由的详细评判文本，这为模型训练提供了前所未有的细粒度监督信号。数据集结构上，它巧妙地将文本指令、智能体的思考与行动、以及对应的网页屏幕截图整合在一个统一的JSON格式中，通过`<image>`标签实现了视觉状态与文本对话的精确对齐。此外，其覆盖的动作空间全面，包括点击、拖拽、输入、滚动等多种网页交互类型，能够支持复杂、多步骤的真实网络任务建模。

使用方法

为有效利用WebSTAR数据集，使用者需首先运行附带的`unzip_screenshots.py`脚本解压被压缩的屏幕截图文件，以恢复完整的视觉数据。在编程实践中，可通过加载JSON文件来访问每条轨迹，其结构包含系统提示、对话序列和图像路径列表。研究人员可以依据`conversations`列表中助理响应的`score`字段，轻松筛选出高质量步骤进行选择性训练或分析。例如，通过设定分数阈值（如≥8分）来提取优质样本，从而训练模型学习更优的决策策略。这种使用方法使得该数据集既能用于端到端的智能体训练，也能服务于步骤级性能的评估与消融研究。

背景与挑战

背景概述

随着人工智能在复杂交互任务中的深入应用，训练能够执行多步骤网页导航与操作的智能体成为研究前沿。WebSTAR数据集于2025年由He等人提出，作为《Scalable Data Synthesis for Computer Use Agents with Step-Level Filtering》研究的核心组成部分，旨在为计算机使用智能体提供精细化的训练与评估资源。该数据集突破了传统轨迹级过滤方法的局限，引入了步骤级质量评分机制，每个动作均附有详尽的评估理由，从而支持对智能体行为进行更精准的质量分析与选择性训练。其构建融合了来自OpenWebVoyager项目的查询，推动了多模态网页代理在真实环境中的探索与优化研究。

当前挑战

在网页导航与交互领域，智能体需理解动态视觉界面并执行序列化操作，这要求模型具备跨模态推理与长期规划能力。WebSTAR所针对的核心挑战在于如何准确评估智能体在复杂、多步骤任务中每个独立动作的有效性，从而避免错误累积并提升整体任务完成率。数据集构建过程中，创建者面临生成大规模、高质量步骤级标注的困难，包括设计一致且可扩展的评分体系，以及整合文本指令与屏幕截图等多模态数据，确保每个动作的评分均伴有清晰、可复现的评估依据。

常用场景

经典使用场景

在智能体与网页交互的研究领域，WebSTAR数据集为训练和评估计算机使用智能体提供了精细化的轨迹数据。其核心应用场景在于支持基于步骤级质量评分的强化学习或监督微调，研究者能够利用该数据集中的多模态轨迹——结合文本指令与浏览器截图——来模拟真实网络环境下的复杂任务执行过程。通过筛选高评分步骤，模型可以学习到更优的决策序列，从而提升在开放网络环境中完成多步骤导航、信息检索及表单交互等任务的准确性与效率。

实际应用

在实际应用层面，WebSTAR数据集可直接服务于开发自动化网络助手或智能体系统。例如，在客户服务、在线研究辅助或日常办公自动化等场景中，基于该数据集训练的模型能够理解用户以自然语言下达的指令，通过解析网页视觉状态并执行点击、输入、滚动等一系列原子操作，自主完成预订、查询、数据填写等任务。这种能力有望降低人工操作成本，提升信息处理流程的自动化水平，尤其适用于需要频繁与多样化网页界面交互的行业。

衍生相关工作

WebSTAR数据集衍生的经典工作紧密围绕其核心创新——步骤级过滤与评分机制展开。相关研究主要探索如何利用这些精细标注来改进智能体的训练策略，例如开发选择性学习算法，仅采用高评分步骤进行模型优化。此外，该数据集也促进了多模态智能体架构的发展，这些工作致力于更有效地融合视觉截图与文本指令以理解动态网页状态。其构建方法还为后续大规模、高质量人机交互轨迹数据的合成提供了可借鉴的范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集