five

WebMall

收藏
arXiv2025-08-18 更新2025-08-22 收录
下载链接:
https://github.com/wbsg-uni-mannheim/WebMall
下载链接
链接失效反馈
官方服务:
资源简介:
WebMall是一个多店铺在线购物基准,用于评估基于LLM的Web代理在比较购物场景中的有效性和效率。WebMall由四个模拟在线商店组成,这些商店充满了从Common Crawl中提取的真实产品报价,以及91个跨商店任务。这些任务包括在多个商店中查找特定产品、进行价格比较、将项目添加到购物车以及完成结账等基本任务。高级任务涉及根据模糊的要求搜索产品、识别合适的替代品以及查找兼容产品。与现有的电子商务基准(如WebShop或ShoppingBench)相比,WebMall引入了跨多个商店的比较购物任务。此外,由于它们来自数百个不同的真实世界商店,产品报价更加多样化。WebMall中的任务需要比WebShop中的任务更长的交互轨迹,同时仍然代表现实世界的购物行为。我们使用WebMall对八个基线代理进行了评估,这些代理在观察模式、内存利用和底层大型语言模型(GPT 4.1和Claude Sonnet 4)方面有所不同。最佳性能配置在基本任务集上的完成率分别为75%和53%,F1分数分别为87%和63%。WebMall已公开发布,以促进Web代理的研究,并促进电子商务中的导航、推理和效率方面的进步。

WebMall is a multi-store online shopping benchmark designed to evaluate the effectiveness and efficiency of LLM-based web agents in comparative shopping scenarios. WebMall comprises four simulated online stores populated with real product listings extracted from Common Crawl, alongside 91 cross-store tasks. These tasks include basic scenarios such as locating specific products across multiple stores, conducting price comparisons, adding items to shopping carts, and completing checkout processes. Advanced tasks involve searching for products based on vague requirements, identifying suitable substitutes, and finding compatible products. Compared to existing e-commerce benchmarks like WebShop or ShoppingBench, WebMall introduces comparative shopping tasks spanning multiple stores. Furthermore, the product listings are more diverse as they originate from hundreds of distinct real-world stores. Tasks in WebMall require longer interaction trajectories than those in WebShop, while still faithfully representing real-world shopping behaviors. We evaluated eight baseline agents using WebMall, which differ in terms of observation modes, memory utilization, and their underlying large language models (GPT 4.1 and Claude Sonnet 4). The optimal performing configurations achieved completion rates of 75% and 53%, along with F1 scores of 87% and 63% respectively on the basic task subset. WebMall has been publicly released to facilitate research on web agents and advance progress in navigation, reasoning, and efficiency within e-commerce.
提供机构:
德国曼海姆大学数据与网络科学组
创建时间:
2025-08-18
原始信息汇总

WebMall 数据集概述

数据集简介

WebMall 是一个用于评估 Web 智能体从多个电子商店查找和比较产品报价能力的基准测试。该基准包含两组任务:基础任务集和高级任务集。

任务类型

基础任务集

  • 搜索和比较报价
  • 将报价添加到购物车
  • 最终结账所选报价

高级任务集

  • 具有模糊要求的搜索
  • 兼容产品搜索
  • 更便宜替代产品搜索

技术环境要求

  • Python 3.11/3.12
  • 需要安装本地版本的 BrowserGym 和 AgentLab
  • 需要设置环境变量(AGENTLAB_EXP_ROOT、OPENAI_API_KEY、ANTHROPIC_API_KEY)
  • 支持 Docker 本地环境设置

运行方式

完整基准测试运行

使用脚本:WebMall/run_webmall_study.py

单任务运行

使用脚本:WebMall/run_single_task.py

结果存储

实验结果存储在 AGENTLAB_EXP_ROOT 环境变量指定的目录中

相关资源

详细基准设计、任务规范和初始结果请参考:https://wbsg-uni-mannheim.github.io/WebMall/

搜集汇总
数据集介绍
main_image_url
构建方式
WebMall数据集通过从2024年10月Common Crawl中提取的真实电商产品信息构建,利用schema.org标注筛选出包含标题、描述、价格和货币属性的英文产品报价。经过去重和语言分类后,通过全球唯一产品标识符聚类相同产品,最终将4,421个电子产品报价分布到四个基于WooCommerce构建的模拟商店中,每个商店采用异构界面和分类树以模拟真实跨店购物环境。
使用方法
研究者可通过Docker容器本地部署四个模拟商店环境,使用基于Browsergym/AgentLab框架的智能体进行任务评估。智能体可配置不同观察模态(无障碍树、截图或组合)、短期记忆功能及底层大语言模型(如GPT-4.1或Claude Sonnet 4),通过最多50步交互完成自然语言指令任务,并通过提交URL集合或完成购物流程来验证性能,评估指标包括完成率、F1分数、令牌消耗和运行成本等。
背景与挑战
背景概述
WebMall数据集由曼海姆大学数据与网络科学团队于2025年创建,旨在解决基于大语言模型的网络代理在跨平台比价购物场景中的评估空白。该数据集包含四个模拟电子商城,收录了从Common Crawl中提取的4,421条真实商品数据,覆盖电脑配件与外设等品类。其核心研究在于通过91项跨店任务验证代理在复杂购物流程中的效能,包括精确商品检索、模糊需求处理和兼容性判断等,为电子商务自动化研究提供了首个多商店对比基准。
当前挑战
该数据集主要挑战在于解决跨商店异构环境下的多维度比价问题,包括处理商品描述的语义差异、价格波动分析和跨平台导航复杂性。构建过程中需克服真实商品数据的去重与标准化难题,从海量Common Crawl数据中筛选符合schema.org规范的英文商品信息,并通过人工标注确保任务设置的合理性。此外,模拟商店的界面异构性要求代理适应不同的导航结构和交互逻辑,这对代理的跨环境泛化能力提出了更高要求。
常用场景
经典使用场景
在电子商务与智能代理交叉领域的研究中,WebMall数据集被广泛应用于评估基于大语言模型的网络代理在多店铺比价购物任务中的性能。其经典使用场景包括模拟真实用户跨多个在线商店进行产品搜索、价格比较、购物车操作及结算流程,尤其擅长测试代理在异构界面下的导航能力与跨店铺信息聚合效率。
解决学术问题
该数据集解决了现有基准测试中缺乏多店铺比价场景的学术空白,通过构建四个异构电子商店和91项跨店任务,为评估代理的导航推理、模糊需求处理和长序列交互能力提供标准化环境。其意义在于首次实现了对代理在真实购物行为中信息整合与决策能力的量化评估,推动了智能代理在复杂网络环境中的可靠性研究。
实际应用
实际应用中,WebMall为电商平台智能化服务提供了验证框架,例如开发自动化比价助手、跨店库存管理系统和个性化购物推荐引擎。其多店铺架构能有效模拟真实商业环境,帮助企业测试代理在价格监控、替代品识别和兼容性验证等场景下的落地效果,为降低人工成本和提高购物效率提供技术支撑。
数据集最近研究
最新研究方向
随着大语言模型驱动的网络代理在电子商务领域的应用日益深入,WebMall作为首个多店铺比价购物基准测试集,正推动该领域研究向跨平台异构数据整合与复杂决策轨迹优化方向发展。当前研究聚焦于多模态感知融合机制,通过结合视觉截图与结构化可访问性树提升代理对异构商品描述的语义理解能力;同时探索短期记忆模块在长序列交互中的关键作用,以解决跨店铺价格比较与兼容性推理等高级任务。前沿实验表明,基于GPT-4.1的代理在基础任务上达到87%的F1分数,而Claude Sonnet 4在模糊需求推理任务中展现优势,这为构建兼具效率与鲁棒性的商业级购物代理提供了重要技术路径。该基准通过模拟真实世界百家电商的异构数据环境,显著推进了网络代理在导航精度、多步推理与经济性评估等方面的研究进程。
相关研究论文
  • 1
    WebMall -- A Multi-Shop Benchmark for Evaluating Web Agents德国曼海姆大学数据与网络科学组 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作