Microsoft GUIDE

github2024-11-21 更新2024-11-22 收录

下载链接：

https://github.com/pavankethavath/Microsoft-Classifying-Cybersecurity-Incidents-with-ML

下载链接

链接失效反馈

官方服务：

资源简介：

Microsoft GUIDE数据集提供了全面的遥测数据，涵盖证据、警报和事件三个层次。关键亮点包括：GUIDE_train.csv（2.43 GB）和GUIDE_test.csv（1.09 GB）。数据集包含多个字段，如Id、OrgId、IncidentId、AlertId、Timestamp等，用于分类网络安全事件。

The Microsoft GUIDE Dataset provides comprehensive telemetry data covering three tiers: evidence, alerts, and events. Key highlights include: GUIDE_train.csv (2.43 GB) and GUIDE_test.csv (1.09 GB). The dataset contains multiple fields such as Id, OrgId, IncidentId, AlertId, Timestamp, and others, which are used for cybersecurity event classification.

创建时间：

2024-11-08

原始信息汇总

Microsoft: Classifying Cybersecurity Incidents with Machine Learning

数据集概述

该数据集用于分类网络安全事件，分为三类：True Positive (TP)、Benign Positive (BP) 和 False Positive (FP)。数据集基于Microsoft GUIDE，包含全面的遥测数据，涵盖证据、警报和事件三个层次。

数据集文件

GUIDE_train.csv (2.43 GB)
GUIDE_test.csv (1.09 GB)
Kaggle链接: Microsoft Security Incident Prediction

数据集特征

数据量: 包含超过1300万条证据。
标注: 包含超过100万条带有分类标签的事件和26,000条带有补救措施标签的事件。
遥测数据: 来自6100多个组织，涵盖MITRE ATT&CK框架中的441种技术。
分区: 分为70%训练数据和30%测试数据，保持分类等级和标识符的均衡分布。

数据预处理

删除缺失值超过50%的列。
从时间戳中提取特征，如Hour、Day和Time。
使用LabelEncoder对分类特征进行编码。
处理缺失值和重复值，确保数据清洁。

模型训练与评估

基线模型: 逻辑回归和决策树。
高级模型: 随机森林、梯度提升、XGBoost和LightGBM。
处理类别不平衡: 使用SMOTE和类别权重调整。
超参数调优: 使用RandomizedSearchCV优化XGBoost的超参数。

模型评估指标

Macro-F1 Score:
- 验证集: 0.91
- 测试集: 0.90
特征重要性: OrgId、IncidentId、AlertTitle和DetectorId等特征显著影响预测。

技术栈

编程语言: Python
库:
- 数据处理: pandas, numpy
- 可视化: matplotlib, seaborn
- 机器学习: scikit-learn, XGBoost, LightGBM, imbalanced-learn
- 特征分析: SHAP
数据集: Microsoft GUIDE Dataset (处理为traindata_processed.csv和testdata_processed.csv)
模型保存: joblib

搜集汇总

数据集介绍

构建方式

Microsoft GUIDE数据集的构建基于广泛的安全运营中心（SOC）的实时数据，涵盖了超过1300万条证据记录。该数据集经过精心处理，分为训练集和测试集，分别占70%和30%，确保了数据在不同分类标签间的均衡分布。数据处理过程中，采用了多种技术，包括空值处理、无关特征的剔除、时间特征的提取以及类别变量的标签编码，从而为后续的机器学习模型训练提供了高质量的数据基础。

特点

Microsoft GUIDE数据集的显著特点在于其庞大的数据量和丰富的特征集。数据集包含了超过100万条带有分类标签的网络安全事件，以及26,000条带有修复行动标签的事件。此外，数据集还涵盖了来自6,100多个组织的遥测数据，涉及441种MITRE ATT&CK框架中的技术。这些特点使得该数据集成为研究网络安全事件分类和自动化响应的理想选择。

使用方法

使用Microsoft GUIDE数据集时，首先需进行数据预处理，包括处理缺失值、特征工程和类别编码。随后，可以利用该数据集训练多种机器学习模型，如逻辑回归、决策树、随机森林、梯度提升、XGBoost和LightGBM。为了优化模型性能，建议采用SMOTE技术处理类别不平衡问题，并使用RandomizedSearchCV进行超参数调优。最终，通过SHAP分析识别关键特征，以提升模型的预测精度和计算效率。

背景与挑战

背景概述

Microsoft GUIDE数据集是由微软公司创建，专注于通过机器学习技术对网络安全事件进行分类。该数据集的核心研究问题是如何自动化地对网络安全事件进行分类，以提高安全操作中心（SOCs）的效率。数据集包含了超过1300万条证据，涵盖了6100多家组织的441种MITRE ATT&CK框架中的技术。通过精细的数据预处理和特征工程，该数据集为研究人员提供了一个强大的工具，以优化模型性能并支持自动化事件分类。

当前挑战

Microsoft GUIDE数据集在构建和应用过程中面临多项挑战。首先，数据集包含大量缺失值和无关特征，需要复杂的数据预处理和特征工程来确保数据质量。其次，目标标签存在显著的类别不平衡问题，这要求采用如SMOTE等技术来处理。此外，模型训练过程中需要优化多个机器学习模型，并通过SHAP分析识别关键特征，以提高模型的泛化能力和效率。最后，数据集的规模和复杂性对计算资源和时间提出了高要求，需要在保证模型性能的同时，优化计算效率。

常用场景

经典使用场景

在网络安全领域，Microsoft GUIDE数据集的经典使用场景主要集中在自动化安全事件分类。通过该数据集，研究人员和安全分析师能够构建和优化机器学习模型，以准确地将网络安全事件分类为True Positive（TP）、Benign Positive（BP）和False Positive（FP）。这种分类能力对于安全运营中心（SOCs）至关重要，因为它能够帮助自动化事件处理流程，从而提高响应速度和准确性。

实际应用

在实际应用中，Microsoft GUIDE数据集被广泛用于安全运营中心（SOCs）的自动化事件分类和响应系统。通过使用该数据集训练的模型，企业能够更快速、准确地识别和处理网络安全威胁，从而减少潜在的损失。此外，该数据集还支持威胁情报的生成和分析，帮助企业更好地理解和应对不断变化的网络威胁环境。

衍生相关工作

基于Microsoft GUIDE数据集，许多相关的工作和研究得以展开。例如，研究人员利用该数据集开发了多种先进的机器学习模型，如随机森林、梯度提升和XGBoost，以提高事件分类的准确性。此外，该数据集还促进了特征工程和数据预处理技术的发展，特别是在处理大规模网络安全数据时。这些衍生工作不仅提升了模型的性能，还为网络安全领域的进一步研究提供了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集