CyberBench
收藏CyberBench 数据集概述
描述
CyberBench 是一个多任务基准,旨在评估大型语言模型(LLMs)在网络安全相关的自然语言处理(NLP)任务中的性能。该基准包含 10 个数据集,涵盖命名实体识别(NER)、摘要生成(SUM)、多选题(MC)和文本分类(TC)等任务。通过此基准,可以了解各种主流 LLMs 的优缺点,从而有助于开发更有效的网络安全应用模型。
数据
要生成用于评估 LLMs 的基准数据 data/cyberbench.csv,请运行以下命令:
bash
python src/data.py
数据集将自动下载并预处理。
模型
将 Hugging Face 模型保存在 models 文件夹中。对于 OpenAI 模型,您需要一个 OpenAI API 密钥。
评估
要使用 CyberBench 任务评估 LLM,请使用以下命令: bash python src/evaluation.py --model MODEL --embedding EMBEDDING --datasets cyberbench
请注意,MODEL 和 EMBEDDING 应与 models 文件夹中的 LLM 和嵌入名称相对应。
结果

许可证
CyberBench 根据 Apache-2.0 许可证授权。有关详细信息,请参阅 LICENSE 文件。
维护级别
该存储库维护以修复错误并确保现有代码库的稳定性。请注意,团队不计划在未来引入新功能或增强功能。
引用
如果您在研究中使用了 CyberBench,请引用我们的论文: bibtex @misc{liu2024cyberbench, title={Cyberbench: A multi-task benchmark for evaluating large language models in cybersecurity}, author={Liu, Zefang and Shi, Jialei and Buford, John F}, howpublished={AAAI-24 Workshop on Artificial Intelligence for Cyber Security (AICS)}, year={2024} }




