five

AI4Sec/cti-bench

收藏
Hugging Face2024-08-17 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/AI4Sec/cti-bench
下载链接
链接失效反馈
官方服务:
资源简介:
CTIBench是一套全面的基准任务和数据集,旨在评估大型语言模型(LLMs)在网络安全威胁情报(CTI)领域的表现。数据集包含多个任务,如多项选择题(CTI-MCQ)、漏洞分类(CTI-RCM)、漏洞评分(CTI-VSP)和威胁报告分析(CTI-TAA)等。每个任务对应一个TSV文件,文件包含提问和正确答案。数据集由Md Tanvirul Alam和Dipkamal Bhusal整理,数据来源包括NIST、MITRE和GDPR等权威标准。

CTIBench是一套全面的基准任务和数据集,旨在评估大型语言模型(LLMs)在网络安全威胁情报(CTI)领域的表现。数据集包含多个任务,如多项选择题(CTI-MCQ)、漏洞分类(CTI-RCM)、漏洞评分(CTI-VSP)和威胁报告分析(CTI-TAA)等。每个任务对应一个TSV文件,文件包含提问和正确答案。数据集由Md Tanvirul Alam和Dipkamal Bhusal整理,数据来源包括NIST、MITRE和GDPR等权威标准。
提供机构:
AI4Sec
原始信息汇总

数据集卡片 CTIBench

数据集概述

CTIBench 是一套用于评估大型语言模型(LLMs)在网络威胁情报(CTI)任务上的基准任务和数据集。

数据集详情

数据集描述

CTIBench 是一个全面的基准任务和数据集套件,旨在评估 LLMs 在 CTI 领域的性能。

组成部分:

  • CTI-MCQ:一个知识评估数据集,包含多项选择题,用于评估 LLMs 对 CTI 标准、威胁、检测策略、缓解计划和最佳实践的理解。该数据集使用权威来源和标准构建,包括 NIST、MITRE 和 GDPR。
  • CTI-RCM:一个实际任务,涉及将常见漏洞和暴露(CVE)描述映射到常见弱点枚举(CWE)类别。该任务评估 LLMs 理解和分类网络威胁的能力。
  • CTI-VSP:另一个实际任务,要求计算常见漏洞评分系统(CVSS)分数。该任务评估 LLMs 评估网络漏洞严重性的能力。
  • CTI-TAA:一个任务,涉及分析公开的威胁报告并将其归因于特定的威胁行为者或恶意软件家族。该任务测试 LLMs 理解历史网络威胁行为并识别有意义关联的能力。

数据集来源

仓库: https://github.com/xashru/cti-bench

数据集结构

数据集由 5 个 TSV 文件组成,每个文件对应一个不同的任务。每个 TSV 文件包含一个“Prompt”列,用于向 LLM 提出问题。大多数文件还包括一个“GT”列,包含问题的真实答案,除了“cti-taa.tsv”。不同任务的评估脚本可在关联的 GitHub 仓库中找到。

数据集创建

数据集创建理由

该数据集是为了评估 LLMs 理解和分析开源 CTI 各个方面的能力而创建的。

源数据

数据集包括指示数据收集来源的 URL。

个人和敏感信息

数据集不包含任何个人或敏感信息。

引用

论文链接:https://arxiv.org/abs/2406.07599

BibTeX: bibtex @misc{alam2024ctibench, title={CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence}, author={Md Tanvirul Alam and Dipkamal Bhushal and Le Nguyen and Nidhi Rastogi}, year={2024}, eprint={2406.07599}, archivePrefix={arXiv}, primaryClass={cs.CR} }

数据集卡片联系

Md Tanvirul Alam (ma8235 @ rit . edu)

搜集汇总
数据集介绍
main_image_url
构建方式
CTIBench数据集的构建是基于对大型语言模型在网络安全领域中的理解和分析能力进行评估的需求。该数据集整合了多个子任务,包括多项选择题、映射CVE到CWE的分类任务、CVSS评分计算以及威胁报告分析等,旨在全面评估模型在处理网络威胁情报(CTI)任务上的表现。数据来源于权威的CTI领域标准和资源,如NIST、MITRE和GDPR,经过精心策划和编排,形成了包含5个TSV文件的任务集,每个文件对应一个特定的评估任务。
特点
CTIBench数据集的特点在于其针对性和实用性。它涵盖了CTI领域的多个关键方面,如标准理解、威胁识别、检测策略和缓解计划等,为大型语言模型提供了一个全面的评估框架。数据集不含个人敏感信息,确保了使用过程中的安全性和隐私性。此外,数据集的构建充分考虑了开源CTI的多样性和复杂性,使得评估结果更具参考价值。
使用方法
使用CTIBench数据集时,用户可以根据不同的评估任务选择相应的TSV文件。每个文件中包含用于向LLM提问的“Prompt”列,以及除了“cti-taa.tsv”外都包含有“GT”列,后者提供了问题的基准答案。用户可以利用这些文件来训练、测试和评估模型的性能。相关的评估脚本可在GitHub仓库中找到,便于用户进行自动化评估。
背景与挑战
背景概述
在网络安全领域,语言模型的应用日益广泛,特别是在处理与网络威胁情报(CTI)相关的任务时。CTIBench数据集,由Md Tanvirul Alam和Dipkamal Bhusal于2024年创建,旨在评估大型语言模型在CTI领域的表现。该数据集包括多个子任务,如多项选择题(MCQ)、CVE到CWE的映射、CVSS评分计算以及威胁报告的分析,旨在测试模型对CTI标准的理解、威胁的识别、检测策略和缓解计划的能力。CTIBench的构建参考了NIST、MITRE和GDPR等权威机构和标准,为相关领域的研究提供了重要的基准工具。
当前挑战
CTIBench数据集在构建过程中面临的挑战主要包括:确保数据集的多样性和全面性,以覆盖CTI领域的各个方面;保持数据质量,确保所有数据来源的可靠性和准确性;同时,由于CTI领域的快速发展,数据集的时效性也是一大挑战。在使用该数据集时,研究者需要面对的挑战包括如何有效地利用这些数据来训练和评估语言模型,以及如何处理模型在理解和分类网络威胁方面的局限性。
常用场景
经典使用场景
在人工智能领域,针对大型语言模型(LLM)在网络安全威胁情报(CTI)领域的应用,CTIBench数据集提供了一个全面的基准测试任务集。该数据集的经典使用场景在于,研究者可以利用它来评估LLM对CTI标准的理解能力,以及对威胁、检测策略、缓解计划及最佳实践的应用能力。通过这一系列精心设计的任务,研究者能够深入了解LLM在处理CTI相关任务时的表现和局限性。
实际应用
在实际应用中,CTIBench数据集可被安全分析师和研究人员用于训练和评估LLM,以提高其在识别和处理网络威胁方面的能力。通过利用该数据集,安全工具可以更加智能化地理解和响应网络安全事件,从而提升整个网络安全防御体系的效率和效能。
衍生相关工作
基于CTIBench数据集,学术界和工业界已经衍生出了一系列相关工作。这些研究不仅包括对数据集本身的分析和改进,还扩展到了利用CTIBench进行LLM在CTI领域应用的探索,如构建更精确的威胁情报分析模型、开发自动化的威胁识别和响应系统等,进一步推动了网络安全领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作