AI4Sec/cti-bench
收藏数据集卡片 CTIBench
数据集概述
CTIBench 是一套用于评估大型语言模型(LLMs)在网络威胁情报(CTI)任务上的基准任务和数据集。
数据集详情
数据集描述
CTIBench 是一个全面的基准任务和数据集套件,旨在评估 LLMs 在 CTI 领域的性能。
组成部分:
- CTI-MCQ:一个知识评估数据集,包含多项选择题,用于评估 LLMs 对 CTI 标准、威胁、检测策略、缓解计划和最佳实践的理解。该数据集使用权威来源和标准构建,包括 NIST、MITRE 和 GDPR。
- CTI-RCM:一个实际任务,涉及将常见漏洞和暴露(CVE)描述映射到常见弱点枚举(CWE)类别。该任务评估 LLMs 理解和分类网络威胁的能力。
- CTI-VSP:另一个实际任务,要求计算常见漏洞评分系统(CVSS)分数。该任务评估 LLMs 评估网络漏洞严重性的能力。
- CTI-TAA:一个任务,涉及分析公开的威胁报告并将其归因于特定的威胁行为者或恶意软件家族。该任务测试 LLMs 理解历史网络威胁行为并识别有意义关联的能力。
数据集来源
仓库: https://github.com/xashru/cti-bench
数据集结构
数据集由 5 个 TSV 文件组成,每个文件对应一个不同的任务。每个 TSV 文件包含一个“Prompt”列,用于向 LLM 提出问题。大多数文件还包括一个“GT”列,包含问题的真实答案,除了“cti-taa.tsv”。不同任务的评估脚本可在关联的 GitHub 仓库中找到。
数据集创建
数据集创建理由
该数据集是为了评估 LLMs 理解和分析开源 CTI 各个方面的能力而创建的。
源数据
数据集包括指示数据收集来源的 URL。
个人和敏感信息
数据集不包含任何个人或敏感信息。
引用
论文链接:https://arxiv.org/abs/2406.07599
BibTeX: bibtex @misc{alam2024ctibench, title={CTIBench: A Benchmark for Evaluating LLMs in Cyber Threat Intelligence}, author={Md Tanvirul Alam and Dipkamal Bhushal and Le Nguyen and Nidhi Rastogi}, year={2024}, eprint={2406.07599}, archivePrefix={arXiv}, primaryClass={cs.CR} }
数据集卡片联系
Md Tanvirul Alam (ma8235 @ rit . edu)




