mini_benchmark_webarena

Hugging Face2025-04-10 更新2025-04-11 收录

下载链接：

https://huggingface.co/datasets/WPRM/mini_benchmark_webarena

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含用户交互数据的测试数据集，记录了用户的意图、浏览历史、操作历史、当前页面信息、可选操作以及任务的详细信息。数据集分为测试集，包含了69个样本。

This is a test dataset containing user interaction data, which records user intent, browsing history, operation history, current page information, optional operations, and detailed task information. This test dataset includes 69 samples.

创建时间：

2025-04-08

搜集汇总

数据集介绍

构建方式

在Web交互智能体评估领域，mini_benchmark_webarena数据集通过系统化流程构建而成。研究团队采用真实网页环境模拟用户任务场景，记录智能体与网页的完整交互轨迹，包括初始URL、操作历史、视觉观察等多元模态数据。每个样本均包含人工标注的优选和劣质响应对，并附有任务完成度检查清单，确保数据质量与评估效度。

使用方法

使用者可通过加载test分割数据评估Web智能体性能，重点关注chosen与rejected响应对的差异分析。数据中的gt_checklist字段支持细粒度任务完成度验证，而step_id与task_id的双层索引机制便于进行跨任务泛化能力测试。建议结合图像与文本模态进行多模态智能体训练，利用action_history字段实现行为克隆等模仿学习方法。

背景与挑战

背景概述

mini_benchmark_webarena数据集作为网络交互行为研究领域的重要资源，由前沿的人工智能研究团队构建，旨在探索智能体在复杂网络环境中的决策过程与行为模式。该数据集通过记录用户在模拟网络环境中的意图表述、操作历史及多模态反馈，为研究人机交互、强化学习及自动化任务执行提供了丰富的实证基础。其核心价值在于通过结构化的行为轨迹数据，揭示智能体在动态网络环境中的适应机制与决策逻辑，对推动自主智能系统的发展具有显著意义。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，如何准确建模网络环境中智能体的多模态感知与序列化决策过程仍存在困难，尤其是处理图像与文本观测的异构数据融合问题；在构建过程中，确保行为轨迹数据的真实性与多样性需克服大规模人工标注的成本压力，同时平衡任务复杂性与数据覆盖范围的关系也成为关键难点。动态网络环境的不可预测性进一步增加了数据采集与标注的挑战度。

常用场景

经典使用场景

在智能代理与网络交互研究领域，mini_benchmark_webarena数据集为评估代理在真实网页环境中的决策能力提供了标准化测试平台。其多模态特征结构（包含意图描述、操作历史、视觉元素等）支持对代理的认知推理、动作序列生成及多任务处理能力进行端到端验证，尤其适用于模仿学习与强化学习框架下的行为克隆研究。

解决学术问题

该数据集有效解决了网络智能体研究中缺乏高质量交互轨迹基准的痛点，通过标注的人类示范动作与对比样本（chosen/rejected），为离线强化学习中的偏好对齐、行为策略优化提供了关键数据支撑。其细粒度的思维链记录（thought_history）和任务检查表（gt_checklist）进一步推动了可解释性AI在复杂决策场景中的理论研究。

实际应用

实际应用中，该数据集被广泛用于训练电商客服机器人、自动化网页测试工具等需要理解用户意图并执行多步骤操作的智能系统。医疗健康领域的预约系统、金融服务的在线表单填写等垂直场景均可通过该数据集构建的代理模型实现流程自动化，显著降低人工操作成本。

数据集最近研究