five

Lightcap/multi-domain-cloudflare-observability

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Lightcap/multi-domain-cloudflare-observability
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多领域Cloudflare分析数据,导出为分析就绪的Parquet表格。它结合了HTTP请求聚合、每小时流量趋势、路径和引用维度、国家/设备/浏览器细分、DNS分析、缓存行为、Web Vitals/RUM性能信号、重定向和规则集元数据,以及200个网站的可用防火墙/安全聚合数据。收集器不使用全局历史窗口,而是从Cloudflare暴露的最早保留间隔查询每个区域和Cloudflare数据集,并在可用时根据区域的Cloudflare创建时间戳进行裁剪。数据集适用于网络流量异常检测、每小时和每日季节性建模、机器人和可疑流量趋势分析、缓存命中/未命中和CDN行为分析、国家、ASN、设备、浏览器和操作系统流量细分、核心Web Vitals和真实用户性能监控、DNS查询模式分析、安全事件聚合和防火墙操作趋势探索等多种用例。

This dataset contains multi-domain Cloudflare analytics exported into analysis-ready Parquet tables. It combines HTTP request aggregates, hourly traffic trends, path and referrer dimensions, country/device/browser breakdowns, DNS analytics, cache behavior, Web Vitals/RUM performance signals, redirect and ruleset metadata, and available firewall/security aggregates across 200 websites. The collector does not use one global history window. Each zone and Cloudflare dataset is queried from the earliest retained interval exposed by Cloudflare, clipped by the zones Cloudflare created timestamp when available. The dataset is suitable for various use cases such as web traffic anomaly detection, hourly and daily seasonality modeling, bot and suspicious traffic trend analysis, cache hit/miss and CDN behavior analysis, country, ASN, device, browser and operating-system traffic breakdowns, Core Web Vitals and real-user performance monitoring, DNS query pattern analysis, security event aggregation and firewall action trend exploration.
提供机构:
Lightcap
搜集汇总
数据集介绍
main_image_url
构建方式
在现代网络观测性研究领域,多域名的Web流量、性能与安全数据的系统性采集是分析网络行为模式的基础。该数据集通过调用Cloudflare GraphQL API,对200个网站的多维度观测指标进行查询与整合,依据每个域名的Cloudflare配置与数据保留窗口,从最早可获取的时间点开始采集,最终生成于2026年5月1日。数据以关系型Parquet表结构组织,域名信息、重定向规则、流量时序及高基数维度切片被分别存储于不同配置表中,避免了嵌套API响应的复杂性,使得跨表联合查询更为便捷。
特点
该数据集的一个显著特点在于其多域、多时频与多维度的综合观测能力。它不仅涵盖了按日和按小时聚合的HTTP请求时序数据,还精细划分了浏览器、内容类型、国家、HTTP版本、IP类别、SSL加密状态及威胁路径等维度映射表,支持细粒度的流量拆解。此外,数据集集成了防火墙事件、DNS分析、核心网页指标与真实用户监控性能信号,以及重定向与规则集元数据,为网络异常检测、性能优化与安全态势分析提供了丰富的特征空间。公开文件中对完整客户端IP、用户代理字符串及代理DNS源地址进行了脱敏处理,保障了隐私安全。
使用方法
研究人员可借助Hugging Face的datasets库便捷加载各配置子集,例如使用load_dataset函数直接获取http_daily、http_hourly等核心表格。由于数据采用Parquet格式存储,用户亦能通过DuckDB、Polars、Pandas或Spark等工具进行高效查询与分析,例如利用SQL语句跨表聚合多域名的请求量与独立访客数。数据集的配置名称清晰对应不同观测维度,用户可根据分析目标灵活组合使用,若需了解字段含义与采集边界,可参考随附的data_dictionary与collection_manifest元数据文件。
背景与挑战
背景概述
该数据集由Faruk Alpay于2026年5月1日创建,源自Cloudflare的GraphQL分析API,覆盖了200个网站的多维度观测数据,包括HTTP请求聚合、每小时流量趋势、DNS分析、缓存行为、Web Vitals及RUM性能信号等。其核心研究问题在于为网络流量异常检测、季节性建模、机器人流量分析、CDN性能评估及网络安全事件聚合提供真实、细粒度的多域观测数据。数据以关系型Parquet表形式组织,支持DuckDB、Polars等现代分析工具,显著降低了传统嵌套API响应解析的复杂性。作为首个公开的多域Cloudflare观测数据集,它填补了网络运维与安全研究中缺乏统一、结构化真实世界数据的空白,对时间序列预测、异常检测和网络可观测性领域具有重要推动作用。
当前挑战
该数据集所解决的领域问题包括:网络流量异常检测中跨域多维度数据整合的缺失,例如如何从分散的Cloudflare API中提取并统一HTTP、DNS与防火墙事件等异构数据;实时用户监控(RUM)与核心Web指标分析中,会话粒度与页面停留时间等关键指标的缺失,导致无法完整评估用户体验;以及网络安全分析中,IP地址与用户代理等敏感信息的隐私保护与数据可用性之间的平衡。构建过程中的挑战则体现为:Cloudflare各域支持的GraphQL字段差异需动态探测以避免API失败,同时受限于计划与保留窗口,部分字段不可用;长尾维度表(如请求路径)受API限制存在截断风险,需通过`is_limit_boundary`标记警示;此外还需严格剔除原始IP与完整用户代理等隐私数据,对防火墙事件IP进行哈希处理,确保数据发布的合规性。
常用场景
经典使用场景
在网站运维与网络观测领域,该数据集常用于多域名的HTTP请求流量分析、Web性能监控以及安全事件检测。研究者可基于http_daily与http_hourly表进行时序建模,捕捉不同时间粒度下的流量模式与周期性变化。通过http_dimension_groups表可深入剖析按国家、设备、浏览器、内容类型等多维度拆分的请求分布,从而构建细粒度的用户行为画像。此外,firewall_events与dns_analytics表为网络安全分析提供了防火墙动作分布与DNS查询趋势的原始素材,特别适用于异常流量检测与威胁路径挖掘任务的基准测试。
衍生相关工作
该数据集衍生出多项跨领域研究工作。在时序预测方向,研究者利用http_daily数据对比了Transformer与GNN架构在多域流量预测中的泛化能力。在网络安全领域,基于firewall_events的异常检测工作提出了融合图注意力的隔离森林改进模型。Web性能优化方面,有工作借助RUM表训练回归模型预测页面积分排名,并提出了面向核心指标的自动化调优策略。此外,DNS分析领域的相关工作基于dns_analytics探索了域名解析延迟与网络拓扑的关系。这些衍生工作均以该公开数据集为统一评测平台,显著加速了Web观测技术的迭代与验证。
数据集最近研究
最新研究方向
随着全球互联网架构的日趋复杂,跨域网络流量的可观测性已成为网络安全、性能优化与智能运维领域的前沿焦点。该数据集以Cloudflare全球内容分发网络为数据源,整合了200个域名的HTTP请求聚合、小时级流量波动、DNS解析记录、防火墙事件、核心网页指标(Core Web Vitals)以及真实用户监测(RUM)等多维异构信号,为时序异常检测、机器人流量识别、缓存命中率分析与CDN行为建模提供了真实生产环境下的基准测试资源。当前研究热点集中于利用该数据集构建跨域流量季节性预测模型,探索高维度表格数据在关系型查询引擎(如DuckDB)下的高效处理范式,并结合可解释人工智能技术分析安全事件聚合与状态码漂移的潜在规律,从而推动网络运营自动化与实时可观测性边界的扩展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作