SecBench

github2025-01-08 更新2025-01-10 收录

下载链接：

https://github.com/secbench-git/SecBench

下载链接

链接失效反馈

官方服务：

资源简介：

SecBench是一个多维度基准测试数据集，旨在评估大型语言模型在网络安全领域的能力。它包括多种格式的问题（选择题和简答题），不同能力层次（知识保留和逻辑推理），多种语言（中文和英文）以及多个子领域。数据集通过收集高质量的开源数据和组织网络安全问题设计竞赛构建而成，包含44,823道选择题和3,087道简答题。

SecBench is a multi-dimensional benchmark dataset designed to evaluate the capabilities of large language models (LLMs) in the field of cybersecurity. It includes questions in multiple formats (multiple-choice questions and short-answer questions), covers different ability levels (knowledge retention and logical reasoning), supports multiple languages (Chinese and English), and spans multiple sub-domains. The dataset is constructed by collecting high-quality open-source data and organizing cybersecurity question design competitions, and contains 44,823 multiple-choice questions and 3,087 short-answer questions.

创建时间：

2025-01-07

原始信息汇总

SecBench 数据集概述

数据集简介

SecBench 是一个多维度的基准测试数据集，旨在评估大型语言模型（LLMs）在网络安全领域的表现。该数据集填补了现有基准测试在网络安全领域的数据不足和形式单一（如仅包含选择题）的空白。SecBench 包含了多种形式的问题（选择题和简答题），涵盖了不同的能力层次（知识保留和逻辑推理），并支持多种语言（中文和英文）和多个子领域。

数据集设计

SecBench 的设计从多个维度进行：

多层次：分为知识保留（KR）和逻辑推理（LR）两个层次。
多语言：包含中文和英文两种主流语言。
多形式：不仅包含选择题（MCQs），还包含简答题（SAQs）。
多领域：涵盖了9个不同的网络安全子领域，包括安全管理、数据安全、网络与基础设施安全等。

数据示例

选择题示例：包含一个问题干和四个选项，模型需要从中选择正确答案。
简答题示例：模型需要根据问题干自行构建答案。

基准测试

SecBench 对16种先进的LLMs进行了广泛的基准测试，包括GPT系列和其他开源模型。测试结果展示了SecBench在评估LLMs在网络安全领域表现的有效性。

发布数据

SecBench 公开发布了3000个问题，包括2730个选择题和270个简答题。数据集可通过Hugging Face和Zenodo平台访问。

引用

bibtex @article{jing2024secbench, title={SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity}, author={Jing, Pengfei and Tang, Mengyun and Shi, Xiaorong and Zheng, Xing and Nie, Sen and Wu, Shi and Yang, Yong and Luo, Xiapu}, journal={arXiv preprint arXiv:2412.20787}, year={2024} }

致谢

该工作得到了腾讯朱雀实验室、腾讯安全科恩实验室、清华大学、香港理工大学以及上海人工智能实验室OpenCompass团队的支持和帮助。

搜集汇总

数据集介绍

构建方式

SecBench数据集的构建过程体现了多源数据整合与专家协作的深度融合。通过从公开资源中收集高质量数据，并结合网络安全问题设计竞赛，数据集涵盖了44,823道选择题（MCQs）和3,087道简答题（SAQs）。为确保数据的多样性和专业性，研究团队采用了多语言（中英文）、多形式（选择题与简答题）和多领域（如安全管理、数据安全等）的设计框架。此外，利用高效且经济的语言模型对数据进行标注，并构建了自动评分代理以评估简答题的答案，进一步提升了数据集的科学性和实用性。

特点

SecBench数据集以其多维度的设计特点在网络安全领域脱颖而出。数据集不仅涵盖了知识保留和逻辑推理两个能力层次，还通过中英文双语问题和多种题型（选择题与简答题）全面评估语言模型的表现。其涵盖的九大领域（如安全管理、数据安全等）经过多轮头脑风暴和修订，确保了内容的广泛性和深度。此外，简答题的设计突破了传统选择题的局限，能够更有效地检验模型的高阶推理能力，为网络安全领域的模型评估提供了更具挑战性的测试环境。

使用方法

SecBench数据集的使用方法灵活多样，适用于多种研究场景。研究人员可通过Hugging Face或Zenodo平台获取数据集，其中包含2,730道选择题和270道简答题。对于选择题，模型需从给定选项中选择正确答案；对于简答题，模型需自主生成答案，并通过自动评分代理进行评估。数据集还提供了详细的领域和能力层次标签，便于用户针对特定领域或能力进行模型性能分析。此外，研究团队已在16个先进语言模型上进行了基准测试，用户可参考这些结果进行对比研究，进一步推动网络安全领域语言模型的优化与创新。

背景与挑战

背景概述

SecBench数据集由腾讯朱雀实验室、腾讯安全Keen实验室、清华大学、香港理工大学以及上海人工智能实验室的OpenCompass团队共同开发，旨在为大语言模型（LLMs）在网络安全领域的性能评估提供全面基准。该数据集于2024年发布，填补了现有基准测试在网络安全领域的空白。SecBench通过多维度设计，涵盖了知识保留与逻辑推理两个能力层次，支持中英双语，并包含多种题型（如选择题和简答题）。其数据来源包括公开数据收集和网络安全问题设计竞赛，最终构建了包含44,823道选择题和3,087道简答题的庞大题库，覆盖了安全管理的九个子领域。SecBench的发布为LLMs在网络安全领域的应用提供了重要的评估工具，推动了该领域的研究进展。

当前挑战

SecBench数据集在构建和应用过程中面临多重挑战。首先，网络安全领域的复杂性和多样性要求数据集能够全面覆盖多个子领域，同时确保问题的深度和广度。其次，数据集的构建需要高质量的数据来源，而现有公开数据往往存在数量不足或质量参差不齐的问题。此外，简答题的自动评估机制设计也是一大挑战，需克服大语言模型在生成答案时的幻觉和重复问题。最后，多语言支持要求数据集在翻译和本地化过程中保持语义一致性和准确性。这些挑战不仅体现在数据集的构建过程中，也影响了其在实际应用中的有效性和可靠性。

常用场景

经典使用场景

SecBench数据集在网络安全领域的大语言模型（LLMs）评估中具有重要应用。通过提供多维度、多语言、多形式和多领域的问题，SecBench能够全面评估LLMs在网络安全中的知识保留和逻辑推理能力。其经典使用场景包括对LLMs在网络安全知识掌握、复杂问题解决能力以及跨语言理解能力的系统性测试，为研究人员提供了一个标准化的评估框架。

实际应用

SecBench的实际应用场景广泛，包括网络安全教育、企业安全培训以及安全技术研发。通过使用SecBench，教育机构可以设计更具挑战性的网络安全课程，企业可以评估员工的安全知识水平，而技术研发团队则可以利用该数据集优化LLMs在网络安全任务中的表现。此外，SecBench的多语言特性使其能够支持全球范围内的网络安全研究和应用。

衍生相关工作

SecBench的发布催生了一系列相关研究工作，特别是在LLMs的网络安全能力评估领域。基于SecBench，研究人员开发了多种自动评分工具和模型优化方法，进一步提升了LLMs在网络安全任务中的表现。此外，SecBench的多维度设计也启发了其他领域的研究人员开发类似的综合性评估数据集，推动了跨领域LLMs评估方法的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集