five

loki-expLLM

收藏
Hugging Face2026-01-20 更新2026-01-22 收录
下载链接:
https://huggingface.co/datasets/squad-rnd/loki-expLLM
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自Loki项目的交互日志,该项目是一个研究计划,专注于创建可扩展的、基于LLM的蜜罐。数据捕获了三个不同蜜罐实验(Exp0、Exp1和Exp2)的请求,每个实验都有独特的架构和目的。数据集的主要目标是为研究人员和安全专业人员提供与不同蜜罐策略交互的真实示例。交互包括看似合法的流量、自动扫描以及各种利用尝试,如SQL注入(SQLi)、跨站脚本(XSS)、远程代码执行(RCE)和模糊测试。
创建时间:
2026-01-19
原始信息汇总

Loki Honeypot Interaction Dataset 概述

数据集基本信息

  • 数据集名称:Loki Honeypot Interaction Dataset
  • 许可证:Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
  • 语言:法语、英语
  • 标签:网络安全、蜜罐、入侵检测、LLM、RCE、SQL注入、XSS

数据集摘要

该数据集包含来自Loki项目的交互日志,该项目是一个专注于创建可扩展的、由LLM驱动的蜜罐的研究计划。数据捕获了对三个不同蜜罐实验(Exp0、Exp1和Exp2)的请求,每个实验都有独特的架构和目的。该数据集的主要目标是为研究人员和安全专业人员提供与不同蜜罐策略交互的真实示例。交互包括看似合法的流量、自动化扫描以及各种利用尝试,例如SQL注入、跨站脚本攻击、远程代码执行和模糊测试。

支持的任务

该数据集可用于网络安全研究中的多种任务,包括:

  • 入侵检测:基于请求模式训练和评估模型以检测恶意流量。
  • 攻击者画像:分析请求序列以了解攻击者行为和意图。
  • 蜜罐效能分析:比较静态蜜罐与LLM驱动蜜罐在吸引和欺骗攻击者方面的有效性。
  • 威胁情报:识别新兴的攻击向量和工具。

数据集结构

数据集以JSON Lines格式提供,其中每一行都是一个表示单个请求-响应交互的JSON对象。

数据实例

一个典型的数据实例如下: json { "request_timestamp": "2026-01-20T12:00:00.123456", "response_timestamp": "2026-01-20T12:00:00.234567", "client_ip_hash": "a1b2c3d4e5f6...", "method": "POST", "url": "http://<server_ip>:8001/api/v1/advanced-eval", "query_params": "{}", "request_payload": "{"formula": "import(os).system(ls)"}", "user_agent": "python-requests/2.28.1", "response_status": 200, "response_body": "{"status":"success","result":"total 28 drwxr-xr-x 1 user user 4096..."}", "flagged_by": "none", "kill_chain_phase": "Exploitation", "source": "exp1" }

数据字段

每个交互包含以下字段:

  • request_timestamp:接收请求的ISO 8601时间戳。
  • response_timestamp:发送响应的ISO 8601时间戳。
  • client_ip_hash:客户端IP地址的SHA256哈希值(用于匿名化)。
  • method:HTTP请求方法。
  • url:请求的完整URL。
  • query_params:请求的查询参数。
  • request_payload:请求的主体。
  • user_agent:请求中的User-Agent头。
  • response_status:响应的HTTP状态码。
  • response_body:响应的主体。
  • flagged_by:将请求标记为可疑的组件或规则。
  • kill_chain_phase:根据洛克希德·马丁网络杀伤链估计的攻击阶段。
  • source:生成日志的实验。

数据划分

数据集未划分为正式的训练集、验证集或测试集。鼓励用户根据其具体研究需求创建自己的划分。可以基于source字段划分数据以单独分析每个实验,或使用request_timestamp按日期划分。

数据集创建

数据由集成到三个Loki蜜罐实验中的日志记录中间件自动收集。所有指向蜜罐端点的流量均被记录。客户端IP地址经过哈希处理以保护隐私。

引用信息

如果研究中使用此数据集,请按以下格式引用:

@misc{loki_honeypot_dataset_2026, author = {Florent MAS , @SQUAD}, title = {Loki Honeypot Interaction Dataset}, year = 2026, publisher = {Hugging Face}, journal = {Hugging Face repository}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在网络安全研究领域,蜜罐技术作为主动防御的重要手段,其交互数据的收集与分析对于理解攻击行为具有关键价值。Loki Honeypot Interaction Dataset的构建依托于Loki项目,该项目旨在开发可扩展的、基于大型语言模型的蜜罐系统。数据采集通过集成在三个独立蜜罐实验(Exp0、Exp1、Exp2)中的日志中间件自动完成,所有指向蜜罐端点的流量均被记录。为保护隐私,客户端IP地址经过SHA256哈希处理匿名化,确保了数据在真实性与伦理规范之间的平衡。
特点
该数据集的核心特征在于其多维度的交互日志结构,涵盖了从时间戳、HTTP方法到请求负载与响应体的完整信息流。每条记录不仅包含基础网络请求数据,还标注了攻击行为的潜在阶段,如利用洛克希德·马丁网络杀伤链模型标识的“侦察”或“利用”阶段。数据集特别收录了多样化的攻击尝试,包括SQL注入、跨站脚本、远程代码执行以及模糊测试等真实威胁样本,同时混合了合法流量与自动化扫描行为,为模型训练提供了丰富的对抗性场景。
使用方法
研究人员可利用该数据集进行入侵检测模型的训练与评估,通过分析请求模式识别恶意流量。数据集采用JSON Lines格式存储,每条记录为独立的JSON对象,便于流式处理与自定义分割。用户可依据来源字段区分不同实验,或基于时间戳构建时序分析任务。在非商业许可下,该数据支持攻击者画像分析、蜜罐效能比较以及新兴威胁情报挖掘等多种网络安全研究应用。
背景与挑战
背景概述
随着网络攻击日益复杂化,传统蜜罐系统在捕获和分析高级威胁方面面临局限性。Loki-expLLM数据集应运而生,由Florent MAS等人于2026年发布,旨在通过集成大型语言模型构建可扩展的智能蜜罐,以收集真实世界中的交互日志。该数据集聚焦于网络安全领域,核心研究问题在于探究LLM增强型蜜罐在诱捕攻击者、识别恶意流量及分析攻击行为方面的效能,为入侵检测、攻击者画像及威胁情报研究提供了宝贵的数据基础,推动了自适应防御系统的发展。
当前挑战
在网络安全领域,准确区分恶意流量与合法请求始终是核心挑战,尤其面对SQL注入、跨站脚本及远程代码执行等多样化攻击向量时,模型需具备深层语义理解能力。数据集构建过程中,挑战主要源于数据采集的匿名化处理与标注一致性:客户IP地址经哈希加密虽保障隐私,却可能影响攻击源追踪分析;同时,攻击链阶段的标注依赖于估计,而非确定性规则,这为数据可靠性带来潜在不确定性,要求研究者在利用时审慎处理数据偏差与标注噪声。
常用场景
经典使用场景
在网络安全研究领域,蜜罐技术作为主动防御策略的核心,其交互数据的分析对于理解攻击者行为至关重要。Loki Honeypot Interaction Dataset 的经典使用场景聚焦于入侵检测系统的训练与评估。研究者利用该数据集包含的多样化攻击向量,如SQL注入、跨站脚本和远程代码执行等真实交互日志,构建并优化机器学习模型,以精准识别恶意流量模式,从而提升自动化威胁检测的准确性与时效性。
解决学术问题
该数据集有效解决了网络安全研究中若干关键学术问题。其一,它提供了对比静态蜜罐与基于大语言模型的动态蜜罐效能的实证基础,助力学者量化分析不同蜜罐架构在诱捕和欺骗攻击者方面的性能差异。其二,数据集内标注的攻击链阶段信息,为深入剖析攻击者行为序列与意图建模提供了结构化数据支撑,推动了攻击者画像与威胁归因研究的精细化发展。
衍生相关工作
围绕该数据集,已衍生出多项具有影响力的经典研究工作。例如,有研究利用其序列化的请求-响应交互数据,开发了基于深度学习的攻击阶段预测模型,实现了对攻击进程的实时推断。另一些工作则专注于多实验源数据的对比分析,系统评估了不同LLM驱动策略在生成动态响应、延长攻击者交互时间方面的优劣,为自适应蜜罐的设计提供了关键洞见。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作