five

PRIMUS|网络安全数据集|自然语言处理数据集

收藏
arXiv2025-02-17 更新2025-02-27 收录
网络安全
自然语言处理
下载链接:
https://huggingface.co/collections/trendmicro-ailab/primus-67b1fd27052b802b4af9d243
下载链接
链接失效反馈
资源简介:
PRIMUS数据集是由趋势科技AI实验室创建的一套开源数据集,包含预训练、指令微调和推理精炼三个阶段的数据集,旨在探索网络安全领域的大型语言模型训练。该数据集涵盖了多个网络安全任务,包括警报解释、可疑命令分析、安全事件查询生成等。数据集从多个来源收集高质量网络安全文本,并通过一系列预处理步骤,如语言模型过滤、去重、质量过滤等,形成了约2.58亿个标记的数据集。
提供机构:
趋势科技AI实验室
创建时间:
2025-02-17
AI搜集汇总
数据集介绍
main_image_url
构建方式
PRIMUS数据集的构建经历了多个阶段。首先,从官方数据源和网络爬取中收集高质量的网络安全文本,形成PRIMUS-SEED。接着,训练一个网络安全文本分类器,使用PRIMUS-SEED作为正样本,从FineWeb中过滤出与网络安全相关的文本,生成PRIMUS-FINEWEB。然后,结合PRIMUS-SEED和PRIMUS-FINEWEB,得到PRIMUS-PRETRAINING。此外,还创建了PRIMUS-INSTRUCT,包含约1k个网络安全任务和通用对话,用于指令微调。最后,构建了PRIMUS-REASONING,包含一个强大的推理LLM在网络安全任务上的推理步骤。
特点
PRIMUS数据集的特点在于其全面性和多样性。它涵盖了LLM训练的多个阶段,包括预训练、指令微调和推理微调。数据集的构建方式确保了文本的质量和相关性,通过分类器和去重处理,提高了数据的质量和多样性。此外,PRIMUS数据集还包括了专家手动收集的网络安全情报,提供了深度的领域知识。
使用方法
使用PRIMUS数据集时,首先需要选择合适的训练阶段。例如,对于预训练,可以使用PRIMUS-PRETRAINING数据集;对于指令微调,可以使用PRIMUS-INSTRUCT数据集;对于推理微调,可以使用PRIMUS-REASONING数据集。在训练过程中,可以结合多个数据集进行训练,以提高LLM在网络安全领域的性能。此外,PRIMUS数据集还可以用于评估LLM在网络安全领域的性能,通过在多个网络安全基准上进行评估,可以了解LLM在网络安全领域的掌握程度。
背景与挑战
背景概述
随着网络威胁的日益复杂化,传统的网络安全方法难以应对。大语言模型(LLMs)在金融、法律和医学等领域的应用取得了显著进展,但在网络安全领域却缺乏开源数据集。PRIMUS数据集应运而生,旨在填补这一空白,为网络安全LLMs的训练提供高质量的开源数据集。该数据集由TrendMicro的AI实验室于2025年创建,主要研究人员包括Yao-Ching Yu、Tsun-Han Chiang、Cheng-Wei Tsai、Chien-Ming Huang和Wen-Kwang Tsao。PRIMUS数据集涵盖了LLMs训练的主要阶段,包括预训练、指令微调和推理蒸馏,并包含网络安全特定的自我反思数据。PRIMUS数据集的发布对于推动网络安全领域的研究具有重要意义,为LLMs在网络安全领域的应用提供了有力支持。
当前挑战
尽管PRIMUS数据集在网络安全LLMs的训练中取得了显著成效,但仍面临一些挑战。首先,数据集构建过程中需要解决网络安全领域知识获取的挑战,包括如何有效地从大量非自然语言数据中提取有价值的信息。其次,构建数据集时需要解决数据质量和多样性的挑战,以确保LLMs能够获得全面且准确的网络安全知识。此外,LLMs在网络安全领域的应用仍处于起步阶段,需要进一步研究和探索,以充分发挥其在网络安全防护中的作用。
常用场景
经典使用场景
PRIMUS数据集为网络安全领域的大型语言模型(LLMs)训练提供了丰富的资源,包括预训练、指令微调和推理精炼等多个阶段的数据集。这些数据集的创建旨在提升LLMs在网络安全领域的知识和理解能力,使其能够更好地应对网络威胁。
衍生相关工作
PRIMUS数据集的发布促进了网络安全领域LLMs研究的发展,衍生出了一系列相关研究。这些研究包括网络安全LLMs的性能评估、训练方法的改进、推理能力的提升等。例如,LlamaPrimus-Base模型在预训练阶段取得了显著的性能提升,LlamaPrimus-Merged模型在指令微调阶段保持了网络安全性能的同时,还恢复了指令跟随能力。这些研究成果为进一步提升网络安全LLMs的能力提供了重要的参考和借鉴。
数据集最近研究
最新研究方向
PRIMUS数据集专注于网络安全领域的大型语言模型训练,通过持续预训练、指令微调和推理蒸馏等训练阶段,显著提高了LLMs在网络安全领域的知识和理解。PRIMUS数据集的发布填补了网络安全领域LLMs训练数据集的空白,并为网络安全LLMs的训练提供了高质量的预训练语料库。此外,PRIMUS数据集还通过推理蒸馏的方式,为LLMs提供了长推理能力和自我反思能力,从而进一步提高了LLMs在网络安全领域的表现。
相关研究论文
  • 1
    Primus: A Pioneering Collection of Open-Source Datasets for Cybersecurity LLM Training趋势科技AI实验室 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录