five

CyPHER

收藏
arXiv2024-11-02 更新2024-11-06 收录
下载链接:
https://github.com/cycraft-corp/CmdCaliper
下载链接
链接失效反馈
官方服务:
资源简介:
CyPHER是由台湾CyCraft AI实验室和国立阳明交通大学计算机科学系创建的第一个命令行相似性数据集,专门用于网络安全领域的研究。该数据集包含28,520对相似命令行对,总计55,909个独特的命令行,用于训练和评估命令行嵌入模型。数据集的创建过程利用了大型语言模型(LLMs)自动生成相似命令行对,确保了数据的高质量和多样性。CyPHER的应用领域主要集中在恶意命令行检测、相似命令行检索和命令行分类等网络安全任务,旨在解决现有数据集稀缺和隐私法规限制的问题。

CyPHER is the first command-line similarity dataset developed by Taiwan's CyCraft AI Laboratory and the Department of Computer Science at National Yang Ming Chiao Tung University, exclusively for cybersecurity-related research. It comprises 28,520 pairs of similar command-line entries, with a total of 55,909 unique command lines, serving as a resource for training and evaluating command-line embedding models. During the dataset creation process, large language models (LLMs) were utilized to automatically generate similar command-line pairs, which guarantees the high quality and diversity of the dataset. The main application areas of CyPHER cover cybersecurity tasks including malicious command-line detection, similar command-line retrieval, and command-line classification, with the goal of addressing the issues of scarcity of existing datasets and restrictions imposed by privacy regulations.
提供机构:
台湾CyCraft AI实验室, 国立阳明交通大学计算机科学系
创建时间:
2024-11-02
原始信息汇总

CmdCaliper: 一个用于安全研究的语义感知命令行嵌入模型和数据集

概述

  • 数据集名称: CyPHER
  • 数据集类型: 相似命令行对
  • 数据集生成方式: 使用大型语言模型(LLMs)生成
  • 训练集规模: 28,520对相似命令行
  • 测试集规模: 2,807对相似命令行
  • 数据集来源: 真实命令行数据

模型

  • 模型名称: CmdCaliper
  • 模型版本:
    • CmdCaliper-Small (30M参数)
    • CmdCaliper-Base (110M参数)
    • CmdCaliper-Large (335M参数)
  • 模型性能:
    • CmdCaliper-Small: MRR@10 = 87.78, Top@10 = 94.76
    • CmdCaliper-Base: MRR@10 = 88.47, Top@10 = 95.26
    • CmdCaliper-Large: MRR@10 = 89.9, Top@10 = 95.65

数据集合成流程

  1. LLM池的凭证配置:
    • 使用模板配置文件创建自己的配置文件。
    • 配置文件中包括推理引擎名称、模型名称、API密钥和基础URL。
  2. 单命令行合成:
    • 使用synthesized_cmds.py脚本生成命令行。
    • 参数包括种子命令文件路径、输出目录路径、生成数据数量和凭证配置文件路径。
  3. 正命令行合成:
    • 使用synthesize_positive_cmds.py脚本生成相似命令行。
    • 参数包括所有命令行文件路径、输出目录路径和凭证配置文件路径。

模型评估

  • 评估命令: bash python3 evaluate.py --model-name [MODEL_NAME] --batch-size 16 --device cuda

  • 支持的模型名称:

    • "CyCraftAI/CmdCaliper-small"
    • "CyCraftAI/CmdCaliper-base"
    • "CyCraftAI/CmdCaliper-large"
    • "thenlper/gte-small"

引用

@inproceedings{huang2024cmdcaliper, title={CmdCaliper: A Semantic-Aware Command-Line Embedding Model and Dataset for Security Research}, author={SianYao Huang, ChengLin Yang, CheYu Lin, and ChunYing Huang}, booktitle={Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
CyPHER数据集的构建方式独具匠心,采用了大规模语言模型(LLMs)进行自动生成。训练集由六种不同的LLMs基于多样化的命令行种子生成,共计28,520对相似命令行对,涵盖55,909个独特的命令行。测试集则从真实的命令行数据中提取,包含2,807对相似命令行对,总计5,576个独特的命令行。这种构建方式不仅确保了数据集的广泛性和多样性,还通过语义相似性评估验证了生成命令行对的高质量。
特点
CyPHER数据集的显著特点在于其语义相似性。不同于传统的基于外观相似的命令行对,CyPHER中的命令行对在语义上高度一致,即使它们在形式上可能大相径庭。此外,数据集的构建过程中采用了多种LLMs,确保了命令行生成的多样性和广泛性。这种设计使得CyPHER成为训练和评估命令行嵌入模型的理想选择,尤其是在网络安全领域。
使用方法
CyPHER数据集主要用于训练和评估命令行嵌入模型,特别是在网络安全领域的应用。研究者可以使用该数据集来训练模型,以计算命令行之间的语义相似性,从而在恶意命令行检测、相似命令行检索等任务中表现出色。此外,数据集的开源性质使得研究者可以自由访问和使用,进一步推动了命令行嵌入技术的发展和应用。
背景与挑战
背景概述
CyPHER数据集由CyCraft AI Lab和National Yang Ming Chiao Tung University的研究人员于2024年创建,旨在解决网络安全领域中命令行嵌入的挑战。该数据集是首个包含语义相似命令行对的综合数据集,用于训练和评估命令行嵌入模型。CyPHER数据集的创建基于大型语言模型(LLMs)生成的28,520对相似命令行,测试集则包含从真实命令行数据中提取的2,807对相似命令行。该数据集的发布为网络安全研究提供了新的工具,特别是在恶意命令行检测和相似命令行检索方面。
当前挑战
CyPHER数据集面临的挑战主要包括两个方面。首先,命令行语法和结构的灵活性使得充分利用这些信息变得困难,传统的句子嵌入模型难以直接应用于命令行任务。其次,构建过程中遇到的挑战包括数据集的稀缺性,由于隐私和法规问题,缺乏专门用于命令行嵌入任务的训练和评估数据集。此外,生成高质量和多样化的相似命令行对也是一个技术难题,需要依赖于LLMs的能力来合成数据。
常用场景
经典使用场景
CyPHER数据集在网络安全研究中被广泛用于训练和评估命令行嵌入模型。其经典使用场景包括恶意命令行检测、相似命令行检索以及命令行分类等任务。通过利用大规模语言模型生成的相似命令行对,CyPHER为研究人员提供了一个丰富的数据资源,以提升命令行嵌入模型的语义理解和识别能力。
解决学术问题
CyPHER数据集解决了网络安全领域中命令行嵌入任务缺乏全面数据集的问题。其提供的相似命令行对不仅丰富了训练数据,还为模型的无偏评估提供了基础。此外,CyPHER的发布推动了命令行嵌入技术的发展,使得研究人员能够更有效地捕捉命令行的语义信息,从而提升恶意命令行检测和相似命令行检索的准确性。
衍生相关工作
CyPHER数据集的发布催生了多项相关研究工作,特别是在命令行嵌入模型的改进和应用方面。例如,基于CyPHER的CmdCaliper模型展示了在恶意命令行检测和相似命令行检索任务中的优越性能。此外,CyPHER还激发了研究人员对大规模语言模型在网络安全数据生成中潜力的进一步探索,推动了数据合成技术在网络安全领域的应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作