five

AttackQA

收藏
arXiv2024-11-02 更新2024-11-06 收录
下载链接:
http://arxiv.org/abs/2411.01073v1
下载链接
链接失效反馈
官方服务:
资源简介:
AttackQA是由SambaNova Systems开发的一个专门用于网络安全操作的问答数据集。该数据集包含25,335个问答对,旨在帮助安全操作中心(SOC)的分析师快速获取关于网络攻击的信息。数据集的内容来源于MITRE ATT&CK知识库,通过轻量级开源大型语言模型(LLM)生成,并经过质量控制以确保数据的高质量。数据集的创建过程包括从MITRE ATT&CK知识库中提取数据、预处理、手动和自动生成问答对,以及质量控制。AttackQA主要应用于网络安全领域,旨在提高分析师在处理网络安全事件时的效率和准确性。

AttackQA is a question-answering dataset specifically designed for cybersecurity operations, developed by SambaNova Systems. It contains 25,335 question-answering pairs, aiming to help Security Operations Center (SOC) analysts quickly acquire information related to cyberattacks. The dataset's content is sourced from the MITRE ATT&CK knowledge base, generated via lightweight open-source large language models (LLMs), and has undergone strict quality control to ensure high data quality. The development workflow of the dataset includes extracting data from the MITRE ATT&CK knowledge base, preprocessing, manually and automatically generating question-answering pairs, and conducting quality control checks. AttackQA is primarily applied in the cybersecurity field, with the goal of improving the efficiency and accuracy of analysts when handling cybersecurity incidents.
提供机构:
SambaNova Systems
创建时间:
2024-11-02
搜集汇总
数据集介绍
main_image_url
构建方式
AttackQA数据集的构建基于MITRE ATT&CK®知识库,该知识库涵盖了网络攻击技术、工具、活动、检测方法和缓解措施。数据集包含25,335个问答对,并附有解释以促进微调和评估。80%的数据集由轻量级开源大型语言模型(LLama 3 8B)生成,该模型在SambaNova System的SN40L专用硬件上以每秒超过1100个令牌的速度生成数据。为确保数据集质量,使用LLama 3 70B模型进行微调,以检测并拒绝低质量的问答对。
使用方法
AttackQA数据集可用于构建基于检索增强生成(RAG)的问答系统,特别适用于安全运营中心(SOC)分析师。使用该数据集时,用户可以通过微调开源嵌入模型和大型语言模型,显著提高问答系统的准确性和响应速度。数据集的问答对可以直接用于训练和评估模型,帮助分析师快速获取关于网络攻击的准确信息。
背景与挑战
背景概述
AttackQA数据集由Varun Badrinath Krishna及其团队在SambaNova Systems开发,旨在通过微调和开源大型语言模型(LLMs)来协助网络安全运营。该数据集创建于2024年,包含25,335个问答对,主要用于构建基于检索增强生成(RAG)的问答系统,以帮助安全运营中心(SOC)分析师快速获取有关网络攻击的答案。AttackQA的数据来源于MITRE ATT&CK®知识库,该知识库广泛应用于私营部门、政府和网络安全产品与服务社区。数据集的创建旨在解决SOC面临的专家缺乏、调查警报时间过长和应对高级威胁反应缓慢等挑战,通过提供快速准确的问答系统来加速攻击预防和恢复。
当前挑战
AttackQA数据集在构建过程中面临多项挑战。首先,数据集的生成依赖于轻量级开源LLM(如Llama 3 8B),这要求模型在生成高质量问答对时保持高速度和准确性。其次,数据集的质量控制是一个关键问题,通过微调Llama 3 70B模型来检测和拒绝低质量的问答对,确保数据集的高质量。此外,数据集的构建需要处理MITRE ATT&CK®知识库的复杂结构,特别是其存储格式(STIX)不适合直接用于问答系统,因此需要进行数据提取和预处理。最后,数据集的应用需要解决领域特定术语和复杂查询的挑战,确保微调的嵌入模型和生成模型能够超越专有LLM的性能。
常用场景
经典使用场景
AttackQA 数据集在网络安全操作中心(SOC)中被广泛用于构建基于检索增强生成(RAG)的问答系统。该数据集包含 25,335 对问答,并附有解释以促进微调和评估。通过利用轻量级开源大型语言模型(LLM)生成数据,AttackQA 能够为安全分析师提供快速准确的答案,从而显著缩短对网络攻击的响应时间。
解决学术问题
AttackQA 数据集解决了网络安全领域中常见的学术研究问题,如缺乏专业知识、调查警报时间过长以及对高级威胁的响应缓慢。通过提供一个高质量的问答数据集,AttackQA 使得研究人员能够微调大型语言模型,从而在生成响应时超越专有模型的性能。这不仅提高了模型的准确性,还为网络安全领域的研究提供了新的基准。
实际应用
在实际应用中,AttackQA 数据集被用于训练和微调网络安全领域的问答系统,以支持安全分析师的工作。这些系统能够快速回答关于网络攻击的时间敏感问题,从而帮助分析师更快地预防和恢复攻击。此外,AttackQA 还促进了开源大型语言模型在网络安全领域的应用,为企业和政府机构提供了更高效、更经济的解决方案。
数据集最近研究
最新研究方向
在网络安全领域,AttackQA数据集的最新研究方向主要集中在利用微调和开源的大型语言模型(LLMs)来提升安全操作中心(SOC)分析师的问答系统性能。研究者们通过构建一个包含25,335个问答对的网络安全问答数据集,并采用检索增强生成(RAG)技术,展示了在特定领域数据集上微调LLMs可以显著提高生成响应的准确性。此外,研究还表明,通过微调开源嵌入模型和LLMs,可以超越OpenAI的最新专有模型(如GPT-4o)的性能,从而为构建高效、准确且完全开源的RAG和评估管道提供了新的可能性。
相关研究论文
  • 1
    AttackQA: Development and Adoption of a Dataset for Assisting Cybersecurity Operations using Fine-tuned and Open-Source LLMsSambaNova Systems · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作