Spider Browser Dataset
收藏Spider Browser Dataset 概述
数据集简介
Spider Browser Dataset 是一个用于浏览器自动化测试的基准数据集,旨在测试真实场景下的可靠性。它包含 999 个 URL,覆盖 327 个域名,横跨 18 个类别,从简单的静态页面到部署了 Akamai、PerimeterX、DataDome 等激进 WAF 和强指纹识别技术的网站。
主要文件
domains.csv:包含 327 个域名的类别、难度和搜索关键词。urls.csv:包含 1,783 个 URL 的域名、类别、难度和页面类型信息。results.csv:最新的基准测试结果(999 个 URL)。latest-summary.json:最新运行的汇总统计数据。
基准测试结果
- 通过率:100% (999/999)。
- 总 URL 数:999。
- 并发数:25。
- 总耗时:约 19 分钟。
- 平均页面时间:16.0 秒。
- 中位数页面时间:11.5 秒。
- p95 页面时间:39.3 秒。
- 最快页面:0.9 秒。
- 最慢页面:79.7 秒。
平均时间细分
- 连接时间:5.7 秒
- 导航时间:4.8 秒
- 内容时间:1.5 秒
- 截图时间:0.9 秒
类别示例
| 类别 | 示例 |
|---|---|
| 电子商务 | amazon, ebay, walmart, target |
| 新闻 | cnn, bbc, nytimes, reuters |
| 技术 | github, stackoverflow, medium |
| 金融 | bloomberg, coindesk, yahoo finance |
| 社交 | reddit, twitter, linkedin |
| 旅游 | booking, tripadvisor, airbnb |
| 娱乐 | youtube, twitch, spotify |
| 食品 | allrecipes, bonappetit, epicurious |
| 健康 | webmd, mayoclinic, healthline |
| 房地产 | zillow, realtor, redfin |
难度级别
- 简单:静态网站,最小的机器人防护。
- 中等:单页应用,中等程度的 WAF(如 Cloudflare)。
- 困难:重型 WAF(如 Akamai、PerimeterX、DataDome),激进的指纹识别。
使用说明
基准测试可通过以下命令运行: bash
运行基准测试
cd spider-browser/typescript SPIDER_API_KEY=sk-... npx tsx tests/stealth-test.ts --target=200
运行完整的 1000-URL 基准测试
SPIDER_API_KEY=sk-... npx tsx tests/stealth-test.ts --target=1000 --concurrency=25
仅重试先前运行中失败的 URL
SPIDER_API_KEY=sk-... npx tsx tests/stealth-test.ts --retry-csv=path/to/results.csv
CSV 格式
urls.csv
包含字段:url, domain, category, difficulty, page_type, passed, browser_used, content_length, title, content_preview, duration_ms。
results.csv
包含字段:url, domain, category, difficulty, page_type, browser_used, passed, blocked, title, content_length, has_screenshot, content_preview, error, duration_ms, connect_ms, navigate_ms, content_ms, screenshot_ms, credits_used, cost_usd。
许可证
MIT



