SecBench
收藏SecBench 数据集概述
数据集简介
SecBench 是一个多维度的基准测试数据集,旨在评估大型语言模型(LLMs)在网络安全领域的表现。该数据集填补了现有基准测试在网络安全领域的数据不足和形式单一(如仅包含选择题)的空白。SecBench 包含了多种形式的问题(选择题和简答题),涵盖了不同的能力层次(知识保留和逻辑推理),并支持多种语言(中文和英文)和多个子领域。
数据集设计
SecBench 的设计从多个维度进行:
- 多层次:分为知识保留(KR)和逻辑推理(LR)两个层次。
- 多语言:包含中文和英文两种主流语言。
- 多形式:不仅包含选择题(MCQs),还包含简答题(SAQs)。
- 多领域:涵盖了9个不同的网络安全子领域,包括安全管理、数据安全、网络与基础设施安全等。
数据示例
- 选择题示例:包含一个问题干和四个选项,模型需要从中选择正确答案。
- 简答题示例:模型需要根据问题干自行构建答案。
基准测试
SecBench 对16种先进的LLMs进行了广泛的基准测试,包括GPT系列和其他开源模型。测试结果展示了SecBench在评估LLMs在网络安全领域表现的有效性。
发布数据
SecBench 公开发布了3000个问题,包括2730个选择题和270个简答题。数据集可通过Hugging Face和Zenodo平台访问。
引用
bibtex @article{jing2024secbench, title={SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity}, author={Jing, Pengfei and Tang, Mengyun and Shi, Xiaorong and Zheng, Xing and Nie, Sen and Wu, Shi and Yang, Yong and Luo, Xiapu}, journal={arXiv preprint arXiv:2412.20787}, year={2024} }
致谢
该工作得到了腾讯朱雀实验室、腾讯安全科恩实验室、清华大学、香港理工大学以及上海人工智能实验室OpenCompass团队的支持和帮助。




