WebLists

Name: WebLists
Creator: 加州大学伯克利分校, Bardeen, Inc.
Published: 2025-04-17 14:16:40
License: 暂无描述

arXiv2025-04-17 更新2025-04-22 收录

下载链接：

http://arxiv.org/abs/2504.12682v1

下载链接

链接失效反馈

官方服务：

资源简介：

WebLists是一个包含200个数据抽取任务的基准数据集，这些任务跨越四个常见的商业和企业使用场景。每个任务都需要一个代理程序导航到网页，相应配置后抽取具有明确定义模式的完整数据集。数据集内容涉及导航、交互和数据抽取，数据规律性各异，旨在解决大规模网站上的结构化数据抽取问题。

WebLists is a benchmark dataset consisting of 200 data extraction tasks spanning four common commercial and enterprise application scenarios. Each task requires an agent to navigate to a web page, perform corresponding configurations, and extract complete datasets with clearly defined patterns. The dataset covers web navigation, interaction and data extraction, with varying degrees of data regularity, and is designed to address the problem of structured data extraction on large-scale websites.

提供机构：

加州大学伯克利分校, Bardeen, Inc.

创建时间：

2025-04-17

搜集汇总

数据集介绍

构建方式

WebLists数据集构建基于真实商业场景的需求，涵盖四个典型的企业研究用例。研究人员从福布斯全球100强云计算公司中精选50个网站，为每个用例手动标注数据起始页面并编写结构化数据提取脚本。数据集包含200项任务，每项任务要求智能体在最多5个页面内完成数据提取，确保任务规模与真实业务需求相匹配。通过采用确定性评估脚本和实时网站更新机制，该数据集有效解决了传统基准测试中数据过时和评估不稳定的问题。

特点

WebLists以其对结构化数据提取的专注性脱颖而出，区别于现有主要测试导航能力的基准。数据集包含四种差异化用例：企业博客提取、客户评价收集、职位发布抓取及分类职位筛选，覆盖从高度结构化到自由文本的多样化数据格式。特别值得注意的是，该基准首次实现了在50个真实网站上的大规模测试，通过精确的URL匹配和模式验证机制，为评估智能体在复杂网页结构中的表现提供了可靠标准。数据集的动态更新特性确保评估结果始终反映当前网络环境的实际挑战。

使用方法

使用WebLists需遵循其特有的两阶段评估流程：首先运行官方提供的参考脚本获取最新基准数据，随后执行待测智能体进行对比分析。评估重点关注精确率（提取项在基准中的占比）和召回率（基准项被提取的比例）两个核心指标，通过特定列的精确匹配实现跨系统可比性。研究人员可通过调整提示词或引入领域适应技术优化智能体表现，但需避免针对特定网站进行过度优化以保持评估的泛化性。数据集配套的评估工具链支持自动化测试和结果分析，显著提升研究效率。

背景与挑战

背景概述

WebLists数据集由加州大学伯克利分校的Arth Bohra团队与Bardeen公司的研究人员共同开发，旨在解决大规模结构化数据提取这一关键研究问题。作为2025年发布的新型基准测试，该数据集包含200个任务，覆盖职业招聘、博客更新、客户评价等四种典型商业场景，涉及50个真实网站，填补了现有网络智能体评估在结构化数据提取方面的空白。其创新性体现在首次将交互式网页配置与严格模式约束相结合，为评估智能体在复杂网页环境中的信息提取能力提供了标准化测试平台，对推动自动化数据采集和商业智能分析领域的发展具有重要意义。

当前挑战

WebLists面临的核心挑战主要体现在两个维度：在领域问题层面，现有智能体难以同时处理网页导航、交互配置和结构化提取的复合需求，特别是在处理动态加载内容和多样化网页布局时表现不佳，基准测试显示最优模型的召回率仅为31%；在构建过程中，研究团队需克服真实网页结构异质性、动态标识符混淆以及商业数据语义复杂性等难题，通过开发可重复执行的CSS选择器生成算法和创新的两阶段处理架构，确保数据集既能反映真实业务场景又能支持自动化评估。

常用场景

经典使用场景

在商业智能和市场研究领域，WebLists数据集为大规模结构化数据提取任务提供了标准化评估框架。其核心应用场景聚焦于跨网站交互式数据采集，例如从企业招聘页面批量提取职位信息，或系统爬取客户评价数据。典型任务流程要求智能体完成页面导航、交互元素配置和结构化数据抽取三个关键环节，模拟真实商业场景中自动化数据管道的构建过程。

衍生相关工作

基于WebLists的评估框架，研究者提出了BardeenAgent这一创新性解决方案。该架构通过将智能体操作转化为可复用的CSS选择器程序，实现了对网页结构化特征的深度利用。后续工作进一步扩展了其在复杂交互场景中的应用，如Job Categories任务中的多级筛选操作优化。相关研究还探索了结合多模态模型提升元素定位精度的方法，形成了WebExtract、ListBender等一系列改进型智能体架构，推动了网络数据提取技术的系统化发展。

数据集最近研究