PRIMUS

Name: PRIMUS
Creator: 趋势科技AI实验室
Published: 2025-02-17 00:34:49
License: 暂无描述

arXiv2025-02-17 更新2025-02-27 收录

下载链接：

https://huggingface.co/collections/trendmicro-ailab/primus-67b1fd27052b802b4af9d243

下载链接

链接失效反馈

官方服务：

资源简介：

PRIMUS数据集是由趋势科技AI实验室创建的一套开源数据集，包含预训练、指令微调和推理精炼三个阶段的数据集，旨在探索网络安全领域的大型语言模型训练。该数据集涵盖了多个网络安全任务，包括警报解释、可疑命令分析、安全事件查询生成等。数据集从多个来源收集高质量网络安全文本，并通过一系列预处理步骤，如语言模型过滤、去重、质量过滤等，形成了约2.58亿个标记的数据集。

The PRIMUS dataset is an open-source dataset created by Trend Micro AI Lab. It includes three stages of datasets for pre-training, instruction fine-tuning, and reasoning refinement, with the goal of exploring large language model (LLM) training in the cybersecurity domain. This dataset covers multiple cybersecurity tasks, including alert interpretation, suspicious command analysis, security event query generation, and others. It collects high-quality cybersecurity text from various sources, and undergoes a series of preprocessing steps such as language model filtering, deduplication, and quality filtering, resulting in a dataset with approximately 258 million tokens.

提供机构：

趋势科技AI实验室

创建时间：

2025-02-17

搜集汇总

数据集介绍

构建方式

PRIMUS数据集的构建经历了多个阶段。首先，从官方数据源和网络爬取中收集高质量的网络安全文本，形成PRIMUS-SEED。接着，训练一个网络安全文本分类器，使用PRIMUS-SEED作为正样本，从FineWeb中过滤出与网络安全相关的文本，生成PRIMUS-FINEWEB。然后，结合PRIMUS-SEED和PRIMUS-FINEWEB，得到PRIMUS-PRETRAINING。此外，还创建了PRIMUS-INSTRUCT，包含约1k个网络安全任务和通用对话，用于指令微调。最后，构建了PRIMUS-REASONING，包含一个强大的推理LLM在网络安全任务上的推理步骤。

特点

PRIMUS数据集的特点在于其全面性和多样性。它涵盖了LLM训练的多个阶段，包括预训练、指令微调和推理微调。数据集的构建方式确保了文本的质量和相关性，通过分类器和去重处理，提高了数据的质量和多样性。此外，PRIMUS数据集还包括了专家手动收集的网络安全情报，提供了深度的领域知识。

使用方法

使用PRIMUS数据集时，首先需要选择合适的训练阶段。例如，对于预训练，可以使用PRIMUS-PRETRAINING数据集；对于指令微调，可以使用PRIMUS-INSTRUCT数据集；对于推理微调，可以使用PRIMUS-REASONING数据集。在训练过程中，可以结合多个数据集进行训练，以提高LLM在网络安全领域的性能。此外，PRIMUS数据集还可以用于评估LLM在网络安全领域的性能，通过在多个网络安全基准上进行评估，可以了解LLM在网络安全领域的掌握程度。

背景与挑战

背景概述

随着网络威胁的日益复杂化，传统的网络安全方法难以应对。大语言模型（LLMs）在金融、法律和医学等领域的应用取得了显著进展，但在网络安全领域却缺乏开源数据集。PRIMUS数据集应运而生，旨在填补这一空白，为网络安全LLMs的训练提供高质量的开源数据集。该数据集由TrendMicro的AI实验室于2025年创建，主要研究人员包括Yao-Ching Yu、Tsun-Han Chiang、Cheng-Wei Tsai、Chien-Ming Huang和Wen-Kwang Tsao。PRIMUS数据集涵盖了LLMs训练的主要阶段，包括预训练、指令微调和推理蒸馏，并包含网络安全特定的自我反思数据。PRIMUS数据集的发布对于推动网络安全领域的研究具有重要意义，为LLMs在网络安全领域的应用提供了有力支持。

当前挑战

尽管PRIMUS数据集在网络安全LLMs的训练中取得了显著成效，但仍面临一些挑战。首先，数据集构建过程中需要解决网络安全领域知识获取的挑战，包括如何有效地从大量非自然语言数据中提取有价值的信息。其次，构建数据集时需要解决数据质量和多样性的挑战，以确保LLMs能够获得全面且准确的网络安全知识。此外，LLMs在网络安全领域的应用仍处于起步阶段，需要进一步研究和探索，以充分发挥其在网络安全防护中的作用。

常用场景

经典使用场景

PRIMUS数据集为网络安全领域的大型语言模型(LLMs)训练提供了丰富的资源，包括预训练、指令微调和推理精炼等多个阶段的数据集。这些数据集的创建旨在提升LLMs在网络安全领域的知识和理解能力，使其能够更好地应对网络威胁。

衍生相关工作

PRIMUS数据集的发布促进了网络安全领域LLMs研究的发展，衍生出了一系列相关研究。这些研究包括网络安全LLMs的性能评估、训练方法的改进、推理能力的提升等。例如，LlamaPrimus-Base模型在预训练阶段取得了显著的性能提升，LlamaPrimus-Merged模型在指令微调阶段保持了网络安全性能的同时，还恢复了指令跟随能力。这些研究成果为进一步提升网络安全LLMs的能力提供了重要的参考和借鉴。

数据集最近研究