AIT_ADS

github2024-06-28 更新2024-07-16 收录

下载链接：

https://github.com/Eckhoff42/ait_ads_labelling

下载链接

链接失效反馈

官方服务：

资源简介：

AIT_ADS数据集包含多个JSON对象，每个对象包含网络攻击的详细信息和相应的标签。数据集用于标记和分析网络攻击事件，支持多种攻击类型的识别和分类。

The AIT_ADS dataset contains multiple JSON objects, each of which includes detailed information about cyber attacks and their corresponding labels. This dataset is used for annotating and analyzing cyber attack incidents, and supports the identification and classification of various attack types.

创建时间：

2024-06-20

原始信息汇总

数据集概述

数据集描述

名称：Automatic labeler AIT-ADS
功能：用于标记来自AIT-ADS数据集的攻击事件。
标记规则：
- 在攻击时间范围内的任何警报都被标记为该攻击。
- 同时发生的多个攻击会有多个标签。
- 误报的标签为空列表。
数据结构：每个JSON对象中包含一个额外的Label列表。

数据示例

json { ..., "AMiner": {"ID": "10.35.35.206"}, "Label": ["dirb"] }

运行`labeler.py`

步骤：
1. 下载并解压AIT-ADS数据集。
2. 运行命令行工具。
命令行选项：
- -h, --help：显示帮助信息。
- -s --scenario：指定场景名称，默认值为all。
- -lf --label_filename：指定包含攻击信息的CSV文件，默认值为labels.csv。
- -dd --dataset_dir：指定数据集目录，默认值为ait_ads。
- -od --output_dir：指定输出标记数据集的目录，默认值为labeled。
- -so --start_offset：添加到攻击开始时间的偏移秒数，默认值为0。
- -eo --end_offset：添加到攻击结束时间的偏移秒数，默认值为0。
- -rn, --remove_noise：如果设置，移除Wazuh数据集中不应存在的警报，默认值为False。

文件结构

bash . ├── README.md ├── ait_ads # 默认AIT-ADS数据集位置 │ ├── fox_aminer.json # 示例 ├── analyzer.py # 分析标记文件 ├── labeled # 默认标记文件位置 │ ├── labeled_fox_aminer.json # 示例 ├── labeler.py # 从ait_ads和labels.csv创建标记文件 ├── labels.csv # 默认标签CSV文件位置

标签分布

Aminer

russellmitchell	fox	harrison	santos	shaw	wardbeck	wheeler	wilson
network_scans	0	0	0	0	9	0	20
service_scans	200	130	60	33	2	107	141
dirb	63	4481	4534	63	63	63	4533
wpscan	3187	4816	4861	3293	787	797	6653
webshell	2	2	2	3	2	3	2
cracking	4	5	5	4	106	4	0
reverse_shell	3	1	1	13	2	0	8
privilege_escalation	18	7	45	35	35	28	28
service_stop	2	2	2	3	2	2	2
dnsteal	0	7	3	1	0	6	5
[webshell, cracking]	1	0	1	1	1	1	0
[wpscan, dirb]	0	38	0	0	38	38	0
[reverse_shell, privilege_escalation]	0	0	0	12	0	0	7
[network_scans, service_scans]	0	0	0	0	0	0	20
[service_scans, dirb]	0	0	0	0	0	0	12

Wazuh

russellmitchell	fox	harrison	santos	shaw	wardbeck	wheeler	wilson
network_scans	8	323	300	104	3	3	643
service_scans	167	140	769	90	1	56	167
dirb	4459	406083	411477	4459	4459	4459	413009
wpscan	3172	4985	4848	3274	933	910	6670
webshell	4	0	31	13	0	13	8
cracking	10	554	1251	773	647	752	0
reverse_shell	0	0	19	6	3	6	26
privilege_escalation	6	10	49	22	19	13	25
service_stop	0	0	20	0	0	0	0
dnsteal	711	381	3236	831	105	17	461
[wpscan, dirb]	0	236	0	0	204	160	0
[network_scans, service_scans]	0	0	4	0	0	0	0
[service_stop, dnsteal]	0	0	16	0	0	0	0
[reverse_shell, privilege_escalation]	0	0	0	3	0	0	2
[service_scans, dirb]	0	0	0	0	0	0	26

消息分布

场景Fox (Aminer)

json "service_stop": { "New value combination(s) detected": 2 }, "dnsteal": { "Value entropy anomaly detected": 6, "Frequency anomaly detected": 1 }, "service_scans": { "New path(es) detected": 106, "New value(s) detected": 24 }, "wpscan": { "New value(s) detected": 4748, "New path(es) detected": 36, "New character(s) detected": 32 }, "dirb": { "New value(s) detected": 721, "New character(s) detected": 2457, "New path(es) detected": 1300, "Frequency anomaly detected": 3 }, "webshell": { "Value entropy anomaly detected": 2 }, "cracking": { "Value entropy anomaly detected": 1, "Frequency anomaly detected": 3, "Statistical data report": 1 }, "reverse_shell": { "Value entropy anomaly detected": 1 }, "privilege_escalation": { "New path(es) detected": 3, "New value combination(s) detected": 4 }

场景Fox (Wazuh)

json "dnsteal": { "Dovecot Authentication Success.": 336, "IDS event.": 17, "Suricata: Alert - ET INFO Observed DNS Query to .cloud TLD": 1, "Suricata: Alert - SURICATA TLS invalid handshake message": 8, "Suricata: Alert - SURICATA TLS invalid record/traffic": 8, "CMS (WordPress or Joomla) login attempt.": 1, "ClamAV database update": 10 }, "network_scans": { "Dovecot Authentication Success.": 123, "Suricata: Alert - SURICATA TLS invalid record/traffic": 50, "IDS event.": 98, "Suricata: Alert - SURICATA TLS invalid handshake message": 50, "Multiple IDS alerts for same id.": 1, "Multiple IDS events from same source ip.": 1 }, "service_scans": { "Dovecot Authentication Success.": 6, "sshd: insecure connection attempt (scan).": 7, "Web server 400 error code.": 37, "Apache: Attempt to access forbidden file or directory.": 24, "Suricata: Alert - SURICATA SMTP no server welcome message": 2, "First time this IDS alert is generated.": 9, "Suricata: Alert - SURICATA SMTP invalid reply": 2, "Multiple web server 400 error codes from same source ip.": 2, "IDS event.": 21, "Suricata: Alert - SURICATA TLS invalid SSLv2 header": 2, "Suricata: Alert - SURICATA TLS invalid record/traffic": 2, "Suricata: Alert - ET SCAN Possible Nmap User-Agent Observed": 24, "Multiple IDS alerts for same id.": 1, "Multiple IDS events from same source ip.": 1 }, "wpscan": { "Web server 400 error code.": 4589, "Multiple web server 400 error codes from same source ip.": 353, "Apache: Attempt to access forbidden directory index.": 1, "Web server 500 error code (Internal Error).": 9, "Apache: Attempt to access forbidden file or directory.": 10, "Dovecot Authentication Success.": 12, "Suspicious URL access.": 10, "Common web attack.": 1 }, "dirb": { "Web server 400 error code.": 375637, "Multiple web server 400 error codes from same source ip.": 28946, "Suspicious URL access.": 456, "Common web attack.": 182, "Apache: Attempt to access forbidden file or directory.": 547, "Apache: Attempt to access forbidden directory index.": 82, "Dovecot Authentication Success.": 216, "Web server 500 error code (Internal Error).": 5, "IDS event.": 4, "Suricata: Alert - SURICATA TLS invalid handshake message": 2, "Suricata: Alert - SURICATA TLS invalid record/traffic": 2, "ClamAV database update": 4 }, "cracking": { "Dovecot Authentication Success.": 162, "Suricata: Alert - SURICATA HTTP unable to match response to request": 2, "IDS event.": 183, "Suricata: Alert - SURICATA TLS invalid handshake message": 94, "Suricata: Alert - SURICATA TLS invalid record/traffic": 94, "Multiple IDS alerts for same id.": 5, "ClamAV database update": 6, "Multiple IDS events from same source ip.": 1, "First time this IDS alert is generated.": 1, "PAM: User login failed.": 1, "Dovecot Invalid User Login Attempt.": 3, "syslog: User authentication failure.": 2 }, "privilege_escalation": { "User successfully changed UID.": 1, "PAM: Login session opened.": 4, "Successful sudo to ROOT executed.": 3, "PAM: Login session closed.": 2 }

搜集汇总

数据集介绍

构建方式

AIT_ADS数据集的构建基于对网络攻击行为的详细标注。通过Python脚本，该数据集将来自AIT_ADS的原始数据与标签文件（如labels.csv）进行匹配，将特定时间范围内的警报标记为相应的攻击类型。若多个攻击同时发生，则每个警报可能包含多个标签。此外，若警报被判定为误报，则其标签列表为空。最终，每个JSON对象中新增了一个`Label`列表，用于存储标注信息。

特点

AIT_ADS数据集的显著特点在于其高度细化的标签系统，能够精确地识别和分类多种网络攻击行为。数据集不仅涵盖了多种攻击类型，如网络扫描、服务扫描、目录爆破等，还详细记录了每种攻击在不同场景下的分布情况。此外，数据集还提供了不同检测器和消息类型的分布，为研究者提供了丰富的分析维度。

使用方法

使用AIT_ADS数据集时，首先需从指定链接下载并解压数据集，默认存储在`/ait_ads`目录下。随后，通过运行`labeler.py`脚本，用户可以根据需求选择特定的场景、标签文件路径、数据集目录以及输出目录等参数，生成标注后的数据集。此外，数据集还提供了分析工具`analyzer.py`，用于进一步处理和分析标注后的文件。

背景与挑战

背景概述

AIT_ADS数据集由一组研究人员创建，旨在为网络安全领域的自动化标签工具提供支持。该数据集包含了多种网络攻击的详细记录，如网络扫描、服务扫描、目录爆破等，以及相应的良性活动数据。通过将这些数据与标签文件结合，研究人员能够训练和验证其自动化标签系统的准确性和效率。AIT_ADS的创建不仅为网络安全研究提供了丰富的数据资源，还推动了相关领域技术的发展，特别是在自动化威胁检测和响应方面。

当前挑战

AIT_ADS数据集在构建过程中面临了多重挑战。首先，数据集需要准确地标记各种复杂的网络攻击，这要求对攻击类型和特征有深入的理解。其次，数据集的规模和多样性增加了数据处理的复杂性，尤其是在处理大规模并发攻击时。此外，确保数据集的标签一致性和准确性也是一个重要挑战，因为任何错误标签都可能导致模型训练的偏差。最后，数据集的更新和维护也是一个持续的挑战，以确保其能够反映最新的网络威胁和攻击手段。

常用场景

经典使用场景

AIT_ADS数据集在网络安全领域中被广泛用于攻击检测和分类任务。通过该数据集，研究者可以训练和验证各种机器学习模型，以识别网络中的异常行为和潜在威胁。例如，数据集中的标签信息可以用于训练分类器，区分正常流量和各种类型的网络攻击，如服务扫描、目录爆破和权限提升等。

实际应用

在实际应用中，AIT_ADS数据集被用于开发和部署网络入侵检测系统（IDS）和安全信息与事件管理系统（SIEM）。这些系统利用数据集中的信息，实时监控网络流量，识别并响应潜在的安全威胁。例如，企业可以使用基于该数据集训练的模型，自动检测和阻止恶意活动，保护其网络基础设施免受攻击。

衍生相关工作

AIT_ADS数据集的发布催生了一系列相关的研究工作，特别是在网络攻击检测和分类领域。许多研究者基于该数据集开发了新的机器学习算法和深度学习模型，以提高攻击检测的准确性和效率。此外，数据集的多标签特性和丰富的攻击类型也促进了多类别分类和异常检测技术的研究，推动了网络安全领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集