Lightcap/cloudflare-domain-traffic-analytics
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Lightcap/cloudflare-domain-traffic-analytics
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Cloudflare域流量分析的一个结构化快照,包含了200个区域的Cloudflare数据。数据集涵盖了域清单、重定向配置、DNS元数据、Web分析设置、HTTP时间序列、请求维度组、真实用户页面加载和Web Vitals指标、DNS分析、Speed API可用性以及防火墙聚合数据。数据以Parquet表格形式存储,便于使用DuckDB、Polars、Pandas、Spark或`datasets.load_dataset()`进行查询。数据收集窗口为UTC时间`2026-04-01T02:00:00Z`至`2026-05-01T02:00:00Z`,快照生成于`2026-05-01T02:17:36Z`。数据集由Faruk Alpay整理,联系方式为`alpay@lightcap.ai`。
This repository is a structured snapshot of Cloudflare data across 200 zones. It combines domain inventory, redirect configuration, DNS metadata, Web Analytics setup, HTTP time series, request dimension groups, real-user page-load and Web Vitals metrics, DNS analytics, Speed API availability, and firewall aggregates where Cloudflare exposes them into analysis-ready Parquet tables. The collection window for traffic tables is `2026-04-01T02:00:00Z` to `2026-05-01T02:00:00Z` UTC. The snapshot was generated at `2026-05-01T02:17:36Z`. Curated by Faruk Alpay. Contact: `alpay@lightcap.ai`.
提供机构:
Lightcap
搜集汇总
数据集介绍

构建方式
本数据集源自于Cloudflare平台在200个域(zone)上采集的结构化快照,时间跨度从2026年4月1日至2026年5月1日。构建过程中,首先通过探测各域的GraphQL字段可用性,避免针对不支持的防火墙字段发起无效查询,从而保证数据无API失败记录。随后,将域清单、重定向配置、DNS元数据、Web分析设置、HTTP时间序列、请求维度分组、真实用户页面加载与Web Vitals指标、DNS分析、Speed API可用性及防火墙聚合信息,整理为31个关系型Parquet表格。这些表格通过域(zones)作为主键相互关联,形成易于查询的扁平化结构,可以直接通过DuckDB、Polars、Pandas或datasets库加载,无需解析嵌套的API响应。采集与裁剪边界等元信息记录在collection_manifest.json中,便于追溯数据来源与完整性。
使用方法
使用该数据集有多种便捷入口。最直接的方式是通过Hugging Face的datasets库按配置名加载特定表格,例如使用load_dataset('http_hourly', split='train')获取小时级流量数据。对于偏好SQL的用户,可克隆仓库后借助DuckDB直接查询Parquet文件,进行如按天统计请求量或计算唯一访客峰值等操作。所有表格均以域名为关联键,因此可以轻松将zones表中的域信息与http_daily、dns_analytics等表进行连接,用于分析流量季节性、重定向集中度、缓存行为或异常检测。建议分析方向包括机器人流量识别、域组合路由、DNS健康检查及状态码漂移等,均可直接从公开表格中执行,无需额外数据采集。
背景与挑战
背景概述
Cloudflare Domain Traffic Analytics Snapshot数据集由Faruk Alpay于2026年创建,旨在系统性地捕获并结构化超过200个域名的Cloudflare运营数据。该数据集整合了域名清单、重定向配置、DNS元数据、Web分析设置、HTTP时间序列、请求维度分组、真实用户页面加载与Web Vitals指标、DNS分析、Speed API可用性及防火墙聚合数据,全部以分析就绪的Parquet表格形式呈现。其核心研究问题在于构建一个高保真、可关系查询的多模态网络流量分析基础资源,以支持流量季节性分析、异常检测、域名架构路由优化及网络安全态势评估等下游研究。通过将Cloudflare GraphQL API的原生响应拆解为22张互相关联的表格,该数据集显著降低了研究者处理嵌套JSON的复杂度,为网络流量分析与网络安全领域的实证研究提供了高质量、可复现的数据支撑。
当前挑战
该数据集主要应对两大维度的挑战。在领域问题层面,传统网络流量数据集往往仅提供聚合的时间序列或孤立的DNS记录,难以支持跨域多模态关联分析。Cloudflare Domain Traffic Analytics Snapshot通过将域名配置、HTTP流量、DNS解析、防火墙事件及真实用户性能指标等23类异构数据以键值关联设计整合,解决了复合型网络分析任务中数据碎片化与关联失效的难题。在构建过程中,其面临的核心挑战包括:Cloudflare GraphQL API的字段可用性因域名而异,需对每个域名进行预探测以规避查询失败;防火墙字段的部分不可用性要求构建自适应查询逻辑,避免产生无效数据行;基于隐私保护的考虑,需对完整客户端IP、User-Agent字符串以及代理DNS解析内容进行脱敏处理,同时确保重定向目标等公开可见信息得以保留,在数据效用与隐私合规间取得平衡。
常用场景
经典使用场景
Cloudflare Domain Traffic Analytics Snapshot 数据集为网络流量分析与异常检测提供了丰富的数据基础。该数据集囊括了200个域名的DNS记录、HTTP流量时间序列、防火墙事件、重定向配置以及真实用户监测(RUM)指标等多维信息,特别适合用于分析流量周期性模式、识别异常请求峰值、检测爬虫行为集中区域以及研究重定向链的拓扑结构。研究人员可以通过关联域名配置与流量特征,挖掘DNS配置错误或SSL证书问题对访问模式的影响,亦或利用国家/地区分布图解析跨地域流量分布规律,为内容分发网络(CDN)的性能优化与安全防护策略制定提供数据支撑。
解决学术问题
该数据集有效解决了Web基础设施研究中多源异构数据难以获取的难题。传统上,研究者需要分别调用Cloudflare的多组API接口采集域名、DNS、HTTP请求、防火墙日志等信息,而该快照将分散的数据整合为关系型Parquet表,大幅降低了数据采集与清洗的门槛。借助这一资源,学术界得以系统性地探究域名级流量特征与网络安全事件之间的关联,例如分析不同威胁评分路径下的请求分布规律,或验证HTTP版本迁移对响应状态码演变的影响。该数据集还填补了公开可用的CDN粒度流量数据集空白,为网络测量、异常检测算法评估及互联网拓扑建模等领域提供了可复现的基准数据环境。
实际应用
在实际产业场景中,该数据集能够直接赋能CDN运营商的日常运维与安全分析团队。运维人员通过查询http_hourly表可快速定位流量突增的域名,结合防火墙事件表识别潜在DDoS攻击或恶意爬虫行为,并利用重定向规则表检查配置冗余或循环跳转问题。SEO优化团队可借助RUM页面加载指标与Web Vitals数据,量化核心网页性能对用户留存的影响,进而针对性地调整缓存策略或优化静态资源分发。此外,安全分析师能基于域名级威胁路径图与SSL证书包信息,自动化排查证书过期或配置不当带来的安全隐患,显著提升企业级Web服务的响应效率与安全韧性。
数据集最近研究
最新研究方向
该数据集为云端域名流量分析提供了前所未有的结构化快照,聚焦于大规模Web基础设施的时序模式挖掘与异常行为检测。结合Cloudflare全球网络的DNS、HTTP、防火墙及真实用户监控(RUM)指标,前沿研究正利用其关联表的组合优势,探索域名流量季节性波动、机器人流量分布、重定向集中度与安全事件间的潜在关联。特别是在网络威胁态势持续演变的当下,该数据集的细粒度维度分组(如浏览器、国家、SSL版本映射)为构建轻量级异常检测模型和跨域路由优化策略奠定了数据基础,其捕获的限界截断标记(is_limit_boundary)更是提示了API采样效应对分析鲁棒性的影响,推动着更精准的网络流量推断与SEO技术演进。
以上内容由遇见数据集搜集并总结生成



