waveguard-benchmarks

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/emergentphysicslab/waveguard-benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

WaveGuard异常检测基准数据集是一个用于评估异常检测模型的精选基准数据集。该数据集包含标记的训练集（正常样本）和测试集（正常与异常混合样本），以及WaveGuard与传统方法的对比结果。数据集涵盖12个不同的场景，包括信用卡欺诈、网络入侵、加密货币欺诈等。具体包含两个子数据集：1) 服务器指标数据集，模拟服务器健康指标并注入故障事件，包含CPU、内存、磁盘I/O、网络和错误等5个数值特征；2) 合成时间序列数据集，包含正弦波、趋势、季节性和随机游走等模式，并注入点异常、上下文异常和集体异常。数据集以Parquet格式提供，每个子数据集包含训练集、测试集和元数据文件。适用于表格分类、时间序列分类、异常检测等任务，尤其适用于服务器监控和网络安全领域。

创建时间：

2026-04-07

原始信息汇总

WaveGuard Anomaly Detection Benchmarks 数据集概述

数据集基本信息

名称：WaveGuard Anomaly Detection Benchmarks
发布者：Partin, Greg
发布日期：2026年
许可证：MIT
数据规模：1K<n<10K
任务类别：表格分类
标签：异常检测、时间序列、时间序列分类、服务器监控、网络安全、基准测试、waveguard、零训练
官方名称：WaveGuard Anomaly Detection Benchmarks

数据集内容与目的

该数据集是一个用于评估异常检测模型的精选基准数据集和对比结果集合。它包含带标签的训练集（正常样本）和测试集（正常与异常混合样本），以及WaveGuard与传统方法的直接对比结果。

包含的数据集

1. Server Metrics (`server_metrics/`)

描述：模拟的服务器健康指标，注入了故障事件。
特征：cpu, memory, disk_io, network, errors (5个数值特征)
训练集：500个正常样本
测试集：100个样本（其中15个异常）
异常类型：CPU峰值、内存泄漏、磁盘饱和、网络洪泛

2. Synthetic Time Series (`synthetic_timeseries/`)

描述：具有已知异常注入点的受控合成信号。
模式：正弦波、趋势、季节性、随机游走
异常类型：点异常（峰值）、上下文异常（细微偏移）、集体异常（状态变化）
训练集：每种模式200个干净窗口
测试集：每种模式50个窗口（每种10个异常）

数据格式

每个数据集以Parquet文件形式提供：

dataset_name/ train.parquet # 仅正常样本 test.parquet # 正常与异常混合样本 metadata.json # 特征描述、异常计数、创建参数

基准测试对比结果

WaveGuard与IsolationForest、LOF和OneClassSVM在12个数据集上的对比。 总结：在12个数据集中，WaveGuard在11个数据集的F1分数上排名第一。

数据集	WaveGuard	IsolationForest	LOF	OneClassSVM	优胜者
Credit Card Fraud*	0.653	0.607	0.601	0.472	WaveGuard
Network Intrusion*	0.598	0.252	0.232	0.546	WaveGuard-L1
Crypto Fraud	1.000	0.933	0.946	0.897	WaveGuard
Prompt Injection	0.976	0.952	0.976	0.889	WaveGuard
Phish Guard	0.976	0.905	0.952	0.816	WaveGuard
Content Guard	0.975	0.842	0.879	0.784	WaveGuard
Fraud Lens	0.949	0.896	0.882	0.800	WaveGuard
Ad Click Fraud	0.988	0.952	0.930	0.889	WaveGuard
Insurance Claims	0.972	0.921	0.959	0.833	WaveGuard
Network Security	0.990	0.962	0.980	0.952	WaveGuard
API Monitoring	0.959	0.909	0.933	0.814	WaveGuard
Log Anomalies	0.946	0.875	0.875	0.805	WaveGuard

*真实世界数据集。其他数据集使用具有现实特征模式的领域特定测试套件。

详细结果（包括样本大小、特征数量和异常率）请参见 benchmark_results/comparison.json。

使用方式

python from datasets import load_dataset

ds = load_dataset("emergentphysicslab/waveguard-benchmarks", "server_metrics") train = ds["train"].to_pandas() test = ds["test"].to_pandas()

评估协议

仅在 train.parquet 上训练/拟合检测器
对 test.parquet 中的每一行进行评分
报告：精确率、召回率、F1分数、AUC-ROC、平均延迟
与模型卡中的WaveGuard基线进行比较

引用信息

bibtex @dataset{waveguard_benchmarks2026, title={WaveGuard Anomaly Detection Benchmarks}, author={Partin, Greg}, year={2026}, url={https://huggingface.co/datasets/emergentphysicslab/waveguard-benchmarks} }

搜集汇总

数据集介绍

构建方式

在异常检测领域，构建高质量基准数据集对于模型评估至关重要。WaveGuard异常检测基准数据集通过精心设计的数据生成与标注流程，涵盖了服务器监控、网络安全及金融欺诈等多个关键场景。其构建过程融合了真实世界数据与模拟测试套件，例如信用卡欺诈和网络入侵采用真实数据集，而其他领域则基于现实特征模式生成合成数据。每个数据集均提供明确的训练集（仅正常样本）和测试集（混合正常与异常样本），并附带详细的元数据描述，确保了数据来源的可靠性与评估的公正性。

特点

该数据集展现出多维度特性，不仅覆盖了时间序列分类、表格分类等任务类型，还特别强调零训练场景下的异常检测能力。其核心特点在于提供了十二个不同领域的基准对比结果，包括服务器指标、合成时间序列等，每个数据集均标注了异常类型与特征模式。例如，服务器指标数据集模拟了CPU峰值、内存泄漏等典型故障事件，而合成时间序列则包含点异常、上下文异常等多种注入模式。这些精心设计的特征使得数据集能够全面评估模型在复杂现实场景中的泛化性能与鲁棒性。

使用方法

使用该数据集时，研究人员可通过Hugging Face的datasets库便捷加载特定子集，如服务器指标或合成时间序列。标准评估协议要求模型仅基于训练集中的正常样本进行拟合，随后在混合测试集上计算精确率、召回率及F1分数等指标。数据集以Parquet格式提供，并附带元数据文件，便于用户深入理解特征结构与异常分布。此外，内置的基准比较结果为模型性能提供了直观参考，支持研究者进行横向对比与方法优化，推动异常检测技术的科学进展。

背景与挑战

背景概述

在网络安全与系统监控领域，异常检测作为保障数字基础设施稳定运行的关键技术，长期面临着高维数据与动态威胁的严峻考验。WaveGuard异常检测基准数据集由Greg Partin于2026年创建，旨在为无训练（zero-training）异常检测模型提供系统化的评估框架。该数据集聚焦于服务器监控、网络安全及时间序列分析等核心场景，通过整合信用卡欺诈、网络入侵、加密货币欺诈等12个真实与模拟数据集，构建了涵盖多元异常类型的标准化测试平台。其设计不仅推动了异常检测算法在零样本场景下的性能比较，更为工业界与学术界提供了可复现的评估基准，显著提升了该领域方法验证的严谨性与透明度。

当前挑战

异常检测领域长期受限于标注数据稀缺与异常模式动态演化等固有难题，WaveGuard基准数据集直面这些挑战，致力于解决高维时序数据中罕见异常事件的精准识别问题。在构建过程中，研究团队需克服多源数据融合的复杂性，确保模拟异常在统计特性上与真实威胁保持一致性，同时维持正常与异常样本间的类别不平衡。此外，数据集设计需兼容异构特征模式，涵盖从服务器指标到网络日志的多样化数据结构，并建立统一的评估协议以公平比较WaveGuard与传统方法如孤立森林、局部离群因子的性能差异，这要求基准在保持现实代表性的同时，具备高度的可扩展性与可重复性。

常用场景

经典使用场景

在异常检测领域，WaveGuard-benchmarks数据集为评估无监督或零训练模型提供了标准化的测试平台。该数据集精心构建了服务器监控指标和合成时间序列两类典型场景，其中服务器指标模拟了CPU峰值、内存泄漏等真实故障模式，而合成时间序列则嵌入了点异常、上下文异常等多种已知异常类型。研究人员通常利用该数据集对模型进行训练和测试，通过对比F1分数等指标，系统验证模型在复杂时序数据上的检测性能与泛化能力。

衍生相关工作

围绕该数据集，已衍生出一系列经典的对比研究与模型改进工作。例如，原研究将WaveGuard方法与IsolationForest、LOF等传统算法在12个数据集上进行了全面对比，证实了其在多数场景下的领先性能。后续工作可能基于该基准进一步探索深度学习模型在时序异常检测中的适应性，或利用其合成数据研究新型异常注入策略，从而不断丰富异常检测领域的方法论与实证基础。

数据集最近研究