loki-expLLM
收藏Loki Honeypot Interaction Dataset 概述
数据集基本信息
- 数据集名称:Loki Honeypot Interaction Dataset
- 许可证:Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
- 语言:法语、英语
- 标签:网络安全、蜜罐、入侵检测、LLM、RCE、SQL注入、XSS
数据集摘要
该数据集包含来自Loki项目的交互日志,该项目是一个专注于创建可扩展的、由LLM驱动的蜜罐的研究计划。数据捕获了对三个不同蜜罐实验(Exp0、Exp1和Exp2)的请求,每个实验都有独特的架构和目的。该数据集的主要目标是为研究人员和安全专业人员提供与不同蜜罐策略交互的真实示例。交互包括看似合法的流量、自动化扫描以及各种利用尝试,例如SQL注入、跨站脚本攻击、远程代码执行和模糊测试。
支持的任务
该数据集可用于网络安全研究中的多种任务,包括:
- 入侵检测:基于请求模式训练和评估模型以检测恶意流量。
- 攻击者画像:分析请求序列以了解攻击者行为和意图。
- 蜜罐效能分析:比较静态蜜罐与LLM驱动蜜罐在吸引和欺骗攻击者方面的有效性。
- 威胁情报:识别新兴的攻击向量和工具。
数据集结构
数据集以JSON Lines格式提供,其中每一行都是一个表示单个请求-响应交互的JSON对象。
数据实例
一个典型的数据实例如下: json { "request_timestamp": "2026-01-20T12:00:00.123456", "response_timestamp": "2026-01-20T12:00:00.234567", "client_ip_hash": "a1b2c3d4e5f6...", "method": "POST", "url": "http://<server_ip>:8001/api/v1/advanced-eval", "query_params": "{}", "request_payload": "{"formula": "import(os).system(ls)"}", "user_agent": "python-requests/2.28.1", "response_status": 200, "response_body": "{"status":"success","result":"total 28 drwxr-xr-x 1 user user 4096..."}", "flagged_by": "none", "kill_chain_phase": "Exploitation", "source": "exp1" }
数据字段
每个交互包含以下字段:
request_timestamp:接收请求的ISO 8601时间戳。response_timestamp:发送响应的ISO 8601时间戳。client_ip_hash:客户端IP地址的SHA256哈希值(用于匿名化)。method:HTTP请求方法。url:请求的完整URL。query_params:请求的查询参数。request_payload:请求的主体。user_agent:请求中的User-Agent头。response_status:响应的HTTP状态码。response_body:响应的主体。flagged_by:将请求标记为可疑的组件或规则。kill_chain_phase:根据洛克希德·马丁网络杀伤链估计的攻击阶段。source:生成日志的实验。
数据划分
数据集未划分为正式的训练集、验证集或测试集。鼓励用户根据其具体研究需求创建自己的划分。可以基于source字段划分数据以单独分析每个实验,或使用request_timestamp按日期划分。
数据集创建
数据由集成到三个Loki蜜罐实验中的日志记录中间件自动收集。所有指向蜜罐端点的流量均被记录。客户端IP地址经过哈希处理以保护隐私。
引用信息
如果研究中使用此数据集,请按以下格式引用:
@misc{loki_honeypot_dataset_2026, author = {Florent MAS , @SQUAD}, title = {Loki Honeypot Interaction Dataset}, year = 2026, publisher = {Hugging Face}, journal = {Hugging Face repository}, }




