five

Spider Browser Dataset

收藏
github2026-02-18 更新2026-02-23 收录
下载链接:
https://github.com/spider-rs/spider-browser-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
一个用于浏览器自动化基准测试的数据集,包含999个URL和327个域名,覆盖18个类别,从简单的静态页面到具有严格WAF(如Akamai、PerimeterX、DataDome)和指纹识别的网站。旨在测试真实世界的可靠性,而不仅仅是理想情况下的演示。

A dataset for browser automation benchmarking that encompasses 999 URLs and 327 domains across 18 categories, ranging from simple static web pages to websites with strict Web Application Firewalls (WAFs such as Akamai, PerimeterX and DataDome) and fingerprinting mechanisms. This dataset is developed to evaluate real-world reliability, rather than merely demonstrating performance under ideal conditions.
创建时间:
2026-02-11
原始信息汇总

Spider Browser Dataset 概述

数据集简介

Spider Browser Dataset 是一个用于浏览器自动化测试的基准数据集,旨在测试真实场景下的可靠性。它包含 999 个 URL,覆盖 327 个域名,横跨 18 个类别,从简单的静态页面到部署了 Akamai、PerimeterX、DataDome 等激进 WAF 和强指纹识别技术的网站。

主要文件

  • domains.csv:包含 327 个域名的类别、难度和搜索关键词。
  • urls.csv:包含 1,783 个 URL 的域名、类别、难度和页面类型信息。
  • results.csv:最新的基准测试结果(999 个 URL)。
  • latest-summary.json:最新运行的汇总统计数据。

基准测试结果

  • 通过率:100% (999/999)。
  • 总 URL 数:999。
  • 并发数:25。
  • 总耗时:约 19 分钟。
  • 平均页面时间:16.0 秒。
  • 中位数页面时间:11.5 秒。
  • p95 页面时间:39.3 秒。
  • 最快页面:0.9 秒。
  • 最慢页面:79.7 秒。

平均时间细分

  • 连接时间:5.7 秒
  • 导航时间:4.8 秒
  • 内容时间:1.5 秒
  • 截图时间:0.9 秒

类别示例

类别 示例
电子商务 amazon, ebay, walmart, target
新闻 cnn, bbc, nytimes, reuters
技术 github, stackoverflow, medium
金融 bloomberg, coindesk, yahoo finance
社交 reddit, twitter, linkedin
旅游 booking, tripadvisor, airbnb
娱乐 youtube, twitch, spotify
食品 allrecipes, bonappetit, epicurious
健康 webmd, mayoclinic, healthline
房地产 zillow, realtor, redfin

难度级别

  • 简单:静态网站,最小的机器人防护。
  • 中等:单页应用,中等程度的 WAF(如 Cloudflare)。
  • 困难:重型 WAF(如 Akamai、PerimeterX、DataDome),激进的指纹识别。

使用说明

基准测试可通过以下命令运行: bash

运行基准测试

cd spider-browser/typescript SPIDER_API_KEY=sk-... npx tsx tests/stealth-test.ts --target=200

运行完整的 1000-URL 基准测试

SPIDER_API_KEY=sk-... npx tsx tests/stealth-test.ts --target=1000 --concurrency=25

仅重试先前运行中失败的 URL

SPIDER_API_KEY=sk-... npx tsx tests/stealth-test.ts --retry-csv=path/to/results.csv

CSV 格式

urls.csv

包含字段:url, domain, category, difficulty, page_type, passed, browser_used, content_length, title, content_preview, duration_ms

results.csv

包含字段:url, domain, category, difficulty, page_type, browser_used, passed, blocked, title, content_length, has_screenshot, content_preview, error, duration_ms, connect_ms, navigate_ms, content_ms, screenshot_ms, credits_used, cost_usd

许可证

MIT

搜集汇总
数据集介绍
构建方式
在浏览器自动化测试领域,构建一个能够全面评估工具在真实网络环境中性能的数据集至关重要。Spider Browser Dataset的构建过程体现了对现实世界复杂性的深刻理解,其核心在于精心挑选了涵盖18个不同类别的327个域名,并从中提取了999个具有代表性的URL。这些URL不仅覆盖了从静态页面到动态单页应用的多种页面类型,还特别纳入了部署有Akamai、PerimeterX、DataDome等高级Web应用防火墙(WAF)及严格指纹识别机制的网站,从而构建了一个梯度式的难度体系,包括简单、中等和困难三个级别。这种构建方式旨在模拟从常规浏览到对抗性环境下的完整自动化场景,而非仅测试理想化的简单路径。
特点
该数据集最显著的特点在于其设计的严谨性与挑战性。它并非一个简单的URL列表,而是一个经过结构化分类、具备明确难度标签的基准测试集合。数据集覆盖了电子商务、新闻、技术、金融、社交媒体等广泛领域,确保了测试场景的多样性。其核心价值在于包含了大量部署有激进WAF和复杂反机器人措施的“困难”级别网站,这直接针对了自动化工具在真实生产环境中面临的核心挑战——规避检测与封锁。此外,数据集配套的结果文件详细记录了每次测试的通过状态、性能指标及错误信息,为量化评估工具的可靠性与效率提供了多维度的数据支撑。
使用方法
使用该数据集进行基准测试,主要依托于配套的spider-browser工具链。用户通过设置API密钥并执行特定的TypeScript测试脚本,即可启动自动化流程。命令行参数提供了灵活的配置选项,例如可以设定测试URL的目标数量、控制并发请求的级别,或者针对先前测试失败的结果进行重试。测试执行后,系统会生成包含详细时序分析的结果文件,记录每个页面的连接、导航、内容加载及截图等环节的耗时,并最终汇总成功率等关键指标。这种方法使得研究人员和开发者能够系统性地衡量其浏览器自动化解决方案在面对不同防护等级的真实网站时的稳健性与性能表现。
背景与挑战
背景概述
Spider Browser Dataset 诞生于现代网络爬虫与浏览器自动化技术快速演进的背景下,由 spider-rs 团队精心构建,旨在应对日益复杂的网络环境对自动化工具提出的严峻考验。该数据集收录了涵盖 18 个类别、327 个域名的 999 个真实网站 URL,覆盖从静态页面到部署了 Akamai、PerimeterX 等高级 Web 应用防火墙(WAF)及强指纹识别技术的站点,其核心研究问题聚焦于评估浏览器自动化系统在真实生产环境中的可靠性与鲁棒性,超越了传统基准测试仅关注理想化路径的局限。自推出以来,该数据集已成为衡量自动化工具对抗反爬虫机制能力的重要标尺,推动了相关领域在隐身浏览、指纹绕过及性能优化方面的技术进步。
当前挑战
该数据集所针对的领域挑战在于,现代网站普遍采用动态内容加载、JavaScript 驱动交互以及层层递进的 bot 防护策略,使得传统爬虫方法难以稳定获取数据。具体而言,数据集构建过程中需克服多重困难:一是需广泛采集覆盖电商、新闻、金融等多领域的高质量 URL,确保样本多样性与代表性;二是必须应对不同难度级别的网站防护机制,包括中等难度的 Cloudflare WAF 及高难度的 Akamai、PerimeterX 等高级指纹识别系统,这对自动化脚本的隐蔽性与适应性提出了极高要求;三是在大规模并发测试下,需精确度量连接、导航、内容提取等各阶段耗时,以评估系统在真实网络延迟与阻塞情境下的性能边界。
常用场景
经典使用场景
在浏览器自动化与网络爬虫领域,Spider Browser Dataset 作为一项严格的基准测试工具,其经典使用场景在于评估自动化浏览器工具在真实网络环境中的可靠性与稳健性。该数据集覆盖了从静态页面到受高级网络应用防火墙保护的复杂网站,通过模拟多样化浏览任务,如新闻浏览、商品搜索和内容提取,为研究者提供了衡量自动化系统抗干扰能力与性能表现的标准化平台。
解决学术问题
该数据集有效解决了浏览器自动化研究中常见的学术问题,包括对抗性环境下的稳健性评估、指纹识别技术的规避策略以及跨域跨类别网站的通用性测试。通过提供包含多种难度级别的URL集合,它帮助研究者量化自动化工具在应对WAF防护、动态内容加载和反爬虫机制时的成功率,从而推动隐私保护、安全浏览和分布式数据采集等前沿方向的理论进展。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,例如基于其基准结果改进的隐身浏览器协议、针对WAF绕过的机器学习模型以及跨平台自动化性能对比分析。这些工作不仅扩展了数据集在反指纹识别和自适应导航方面的应用边界,还为开源社区提供了如 spider-browser SDK 等工具,进一步促进了浏览器自动化技术的标准化与生态发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作