CERT Insider Threat Detection Dataset

github2025-02-04 更新2025-02-22 收录

下载链接：

https://github.com/AymanMansur/Insider-threat-detection-using-cert-dataset-Logon-

下载链接

链接失效反馈

官方服务：

资源简介：

用于检测内部威胁的异常行为的数据集，专注于非工作时间的用户活动。

Dataset designed for detecting anomalous behavior indicative of insider threats, focusing on user activities during non-working hours.

创建时间：

2025-02-02

原始信息汇总

异常检测：利用日志数据识别内部威胁

概述

本项目使用了CERT内部威胁检测数据集（logon.csv），专注于识别用户活动的异常，特别是非工作时间内的行为。通过应用隔离森林算法，我们基于正常使用模式的偏差来检测潜在的内部威胁。

方法论

数据预处理
- 筛选单一用户的登录记录。
- 定义工作时间为早上6点到晚上6点，非工作时间为晚上6点到早上6点。
- 按此标准对登录数据进行分段。
特征工程
- 非工作时间每日会话时长：用户每日在多个电脑上登录和注销。
  - 计算每台电脑的会话时长并累加，得出每日总会话时长。
- 非工作时间登录和注销频率：统计非工作时间内的登录和注销次数。
异常检测
- 应用隔离森林算法检测非工作时间内用户行为的异常。
- 识别可能表示可疑活动的异常登录模式。
- 该方法可扩展以监控多个用户以检测内部威胁。

所用技术

Python
Pandas（数据处理）
Scikit-Learn（机器学习 - 隔离森林）

未来改进

将分析扩展到多个用户。
加入额外的特征，如IP地址和地理位置。
测试其他异常检测技术（例如，单类SVM、自动编码器）。

数据集链接：CERT内部威胁检测数据集

搜集汇总

数据集介绍

构建方式

CERT Insider Threat Detection Dataset的构建，以用户登录数据为核心，经过数据预处理，将记录过滤为单一用户的登录信息，并区分了正常工作时段与非工作时段。在此基础上，通过特征工程提取了用户每日非工作时段的会话时长和登录登出频率，进而利用Isolation Forest算法进行异常检测，以识别潜在的内部威胁。

特点

该数据集的特点在于专注于非工作时段的用户活动异常检测，通过分析登录行为模式，捕捉异常登录活动。数据集经过精心设计的特征工程，包含了会话时长和登录频率等关键特征，有助于提高内部威胁检测的准确性。此外，其开放性和扩展性使得未来可以整合更多用户数据以及IP地址、地理位置等信息，进一步增强检测能力。

使用方法

使用该数据集时，首先需要进行数据预处理，包括筛选特定用户数据并划分工作与非工作时间。随后，进行特征工程以提取有用的统计特征。最后，应用Isolation Forest等异常检测算法，对用户行为进行建模和分析，从而识别出异常行为模式。用户可根据实际需求，对模型进行进一步的优化和调整。

背景与挑战

背景概述

CERT Insider Threat Detection Dataset是由美国卡内基梅隆大学软件工程研究所的CERT部门创建于2015年，旨在为内部威胁检测领域提供研究资源。该数据集汇聚了用户的登录行为记录，研究人员通过这一数据集致力于解决非工作时间内的异常用户活动检测问题，以识别潜在的内部威胁。该数据集自发布以来，对网络安全领域，尤其是在内部威胁检测研究中，产生了显著影响，成为该领域内重要的研究工具。

当前挑战

在构建和利用CERT Insider Threat Detection Dataset的过程中，研究人员面临了诸多挑战。首先，如何准确界定工作与非工作时段，以及如何处理登录数据的预处理，确保数据质量，是一大挑战。其次，在特征工程阶段，如何合理构建反映用户行为的特征，如日会话时长和登录登出频率，以适应异常检测算法，同样具有挑战性。此外，所采用的异常检测方法如孤立森林的适用性和准确性，以及未来将分析扩展到多用户，并融入更多特征如IP地址和地理位置信息，都是当前及未来研究的挑战所在。

常用场景

经典使用场景

在信息安全领域，针对内部威胁的检测至关重要。CERT Insider Threat Detection Dataset数据集被广泛应用于异常检测，特别是在识别用户非工作时间内的异常登录行为。该数据集通过分析用户登录记录，利用隔离森林算法检测潜在的内鬼威胁，成为检测非正常使用模式的一个经典案例。

衍生相关工作

CERT Insider Threat Detection Dataset数据集衍生了多项相关研究工作，包括但不限于扩展分析至多用户系统、引入IP地址和地理位置等额外特征，以及测试其他异常检测技术如单类支持向量机、自动编码器等，推动了内部威胁检测领域的研究与技术进步。

数据集最近研究