Online-Mind2Web

github2025-04-13 更新2025-03-27 收录

下载链接：

https://github.com/OSU-NLP-Group/Online-Mind2Web

下载链接

链接失效反馈

官方服务：

资源简介：

Online-Mind2Web包括来自136个流行网站的300个多样化任务，涵盖服装、食品、住房和交通等多个领域的真实用户任务，以评估网络代理在真实在线环境中的性能。

Online-Mind2Web consists of 300 diverse tasks originating from 136 popular websites. These real-world user-facing tasks span multiple domains such as apparel, food, housing, transportation and more, and are specifically designed to evaluate the performance of web agents in realistic online environments.

创建时间：

2025-03-24

原始信息汇总

Online-Mind2Web Benchmark 数据集概述

数据集基本信息

名称: Online-Mind2Web Benchmark
开发者: 来自俄亥俄州立大学和加州大学伯克利分校的研究团队
相关链接:
- 博客: https://tiancixue.notion.site/An-Illusion-of-Progress-Assessing-the-Current-State-of-Web-Agents-1ac6cd2b9aac80719cd6f68374aaf4b4?pvs=4
- 排行榜: https://huggingface.co/spaces/osunlp/Online_Mind2Web_Leaderboard
- 数据: https://huggingface.co/datasets/osunlp/Online-Mind2Web

任务与内容

任务数量: 300个多样化任务
网站数量: 136个流行网站
覆盖领域: 包括服装、食品、住房、交通等多个真实世界用户任务领域

评估方法

自动评估器: 基于LLM-as-a-Judge的自动评估方法
- 关键点识别: 根据指令和任务描述识别完成任务所需的关键点
- 关键截图识别: 从代理轨迹中选择重要截图
- 结果判断: 基于任务描述、关键点、关键截图和动作历史输出判断结果

环境设置

Python版本: 3.11
依赖安装: bash conda create -n Online_Mind2Web python=3.11 conda activate Online_Mind2Web pip install -r requirements.txt

评估

评估脚本: bash bash ./script/eval.sh

引用

bibtex @article{xue2025webagents, title = "An Illusion of Progress? Assessing the Current State of Web Agents", author = "Xue, Tianci and Qi, Weijian and Shi, Tianneng and Song, Chan Hee and Gou, Boyu and Song, Dawn and Sun, Huan and Su, Yu", journal = "OSU NLP Blog", year = "2025", month = "Mar", url = "https://tiancixue.notion.site/An-Illusion-of-Progress-Assessing-the-Current-State-of-Web-Agents-1ac6cd2b9aac80719cd6f68374aaf4b4" }

@inproceedings{deng2023mind2web, author = {Deng, Xiang and Gu, Yu and Zheng, Boyuan and Chen, Shijie and Stevens, Sam and Wang, Boshi and Sun, Huan and Su, Yu}, booktitle = {Advances in Neural Information Processing Systems}, editor = {A. Oh and T. Naumann and A. Globerson and K. Saenko and M. Hardt and S. Levine}, pages = {28091--28114}, publisher = {Curran Associates, Inc.}, title = {Mind2Web: Towards a Generalist Agent for the Web}, url = {https://proceedings.neurips.cc/paper_files/paper/2023/file/5950bf290a1570ea401bf98882128160-Paper-Datasets_and_Benchmarks.pdf}, volume = {36}, year = {2023} }

搜集汇总

数据集介绍

构建方式

Online-Mind2Web数据集构建于136个流行网站的300个多样化任务，涵盖服装、食品、住房和交通等多个现实领域。为确保数据时效性，研究团队建立了动态更新机制，鼓励用户反馈失效任务。评估流程采用创新的LLM-as-a-Judge方法，通过关键点识别、关键截图筛选和结果判定三阶段实现自动化评估，在保留关键视觉证据的同时优化计算效率。该数据集继承自Mind2Web原始数据集，并针对在线环境特性进行了专项优化。

特点

该数据集以其高度真实的在线环境模拟和系统化的评估框架脱颖而出。任务设计覆盖跨领域的实际用户需求，每个任务均配备完整的交互轨迹和视觉证据。独特的自动评估体系通过大语言模型实现多维度判断，既保证评估可靠性又解决长文本处理的挑战。数据集特别注重时效性维护，通过社区协作机制持续更新网站交互逻辑，为网页智能体研究提供动态测试平台。

使用方法

使用者需配置Python 3.11环境并安装指定依赖库。评估过程通过执行预置脚本启动，支持多种自动评估模式切换。研究团队提供完整的任务描述、关键点标注和截图序列，开发者可基于标准格式扩展新任务。为保障评估一致性，建议严格遵循提供的评估流程，利用关键截图筛选机制优化大语言模型输入。使用该数据集时需同时引用原始Mind2Web工作及相关衍生研究。

背景与挑战

背景概述

Online-Mind2Web数据集由俄亥俄州立大学和加州大学伯克利分校的研究团队于2025年推出，旨在评估网络智能体在真实在线环境中的任务执行能力。该数据集基于早期Mind2Web数据集构建，覆盖了136个流行网站的300项多样化任务，涉及服装、食品、住房和交通等多个领域。研究团队通过引入基于大语言模型的自动评估方法，解决了传统评估在在线环境中的可靠性和扩展性问题。该数据集为研究通用网络智能体的泛化能力和适应性提供了重要基准，推动了人机交互和自动化任务完成技术的发展。

当前挑战

Online-Mind2Web数据集面临的核心挑战包括两个方面：在领域问题层面，网络智能体需要处理动态变化的网页结构和复杂的用户任务，这对模型的泛化能力和上下文理解提出了极高要求；在构建过程中，研究团队需解决在线环境评估的可靠性问题，为此设计了基于关键点识别、关键截图筛选和结果判定的三阶段评估框架，以平衡评估准确性与计算效率。此外，维护数据集的时效性也是持续挑战，需要定期更新因网站改版而失效的任务样本。

常用场景

经典使用场景

在Web智能体研究领域，Online-Mind2Web数据集通过涵盖136个流行网站的300项多样化任务，为评估智能体在真实在线环境中的表现提供了标准化测试平台。其覆盖服装、食品、住房和交通等领域的任务设计，使得研究者能够系统性地考察智能体处理复杂网页交互的能力，特别是在动态网页元素识别和多步骤任务执行方面的表现。

实际应用

在实际应用层面，该数据集支撑的智能体技术已逐步应用于电商客服自动化、无障碍网页导航辅助等场景。通过模拟真实用户的浏览路径和交互模式，训练后的智能体能够完成商品比价、机票预订等复杂操作，显著提升了在线服务的自动化水平。其多领域覆盖特性尤其适合开发通用型网页交互助手。

衍生相关工作

基于该数据集衍生的研究推动了Web智能体技术的多个发展方向，包括Mind2Web原团队提出的分层决策框架，以及后续研究者开发的视觉-语言联合建模方法。相关成果在NeurIPS等顶会形成系列工作，逐步建立起从单任务执行到跨网站泛化的技术演进路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集