SecBench

Hugging Face2025-01-08 更新2025-01-09 收录

下载链接：

https://huggingface.co/datasets/secbench-hf/SecBench

下载链接

链接失效反馈

官方服务：

资源简介：

SecBench是一个全面的多维基准数据集，旨在评估大型语言模型（LLMs）在网络安全领域的能力。该数据集包括多种格式的问题（如多项选择题和简答题），涵盖不同的能力层次（知识保持和逻辑推理），并且支持多种语言（中文和英文）。数据集通过从公开资源收集高质量数据和组织网络安全问题设计竞赛构建而成，包含44,823个多项选择题和3,087个简答题。此外，数据集还使用了强大的LLMs进行数据标注和构建评分代理，以自动评估简答题。

SecBench is a comprehensive multi-dimensional benchmark dataset designed to evaluate the capabilities of Large Language Models (LLMs) in the cybersecurity domain. This dataset includes questions in various formats such as multiple-choice questions and short-answer questions, covers different capability levels including knowledge retention and logical reasoning, and supports multiple languages (Chinese and English). The dataset is constructed by collecting high-quality data from public resources and organizing cybersecurity question design competitions, and contains 44,823 multiple-choice questions and 3,087 short-answer questions. Furthermore, the dataset uses powerful LLMs for data annotation and building scoring agents to automatically evaluate short-answer questions.

创建时间：

2025-01-07

搜集汇总

数据集介绍

构建方式

SecBench数据集的构建过程体现了多源数据整合与专家协作的深度融合。数据集通过从开放资源中收集高质量数据，并组织网络安全问题设计竞赛，最终形成了包含44,823道选择题（MCQs）和3,087道简答题（SAQs）的丰富题库。为确保数据的多样性和专业性，SecBench采用了多维度设计，涵盖知识保留与逻辑推理两个能力层次，并支持中英双语。此外，数据集还利用大语言模型（LLMs）进行数据标注和自动评分，进一步提升了数据的可靠性和评估效率。

使用方法

SecBench数据集的使用方法灵活多样，适用于大语言模型在网络安全领域的性能评估。用户可通过GitHub或Zenodo平台获取数据集，其中包含2,730道选择题和270道简答题。对于选择题，模型需从给定选项中选择正确答案；对于简答题，模型则需根据问题生成完整答案。数据集还提供了自动评分工具，用户可利用内置的评分代理对简答题答案进行自动化评估。此外，SecBench支持多语言、多领域的评估，用户可根据需求选择特定语言或领域进行针对性测试，从而全面衡量模型在网络安全任务中的表现。

背景与挑战

背景概述

SecBench数据集由Pengfei Jing等研究人员于2024年提出，旨在为大语言模型（LLMs）在网络安全领域的评估提供一个多维度的基准测试工具。该数据集由腾讯朱雀实验室、腾讯安全Keen实验室、清华大学、香港理工大学以及上海人工智能实验室的OpenCompass团队共同开发。SecBench的创建填补了现有基准测试在网络安全领域的空白，特别是针对LLMs在知识保留和逻辑推理等方面的能力评估。数据集包含44,823道选择题（MCQs）和3,087道简答题（SAQs），涵盖中英双语及九个网络安全子领域，成为目前网络安全领域最大且最全面的基准测试数据集。

当前挑战

SecBench数据集在构建过程中面临多重挑战。首先，网络安全领域的专业性和复杂性要求数据集必须涵盖广泛且深入的知识点，这对数据收集和标注提出了极高的要求。其次，传统的多选题形式难以全面评估LLMs的逻辑推理能力，因此SecBench引入了简答题形式，增加了数据集的多样性和评估难度。此外，自动评分系统的构建依赖于LLMs的标注能力，如何确保标注的准确性和一致性成为一大技术难题。最后，数据集的跨语言特性要求在中英双语环境下保持问题的一致性和难度平衡，这对数据设计和验证提出了更高的要求。

常用场景

经典使用场景

SecBench数据集在网络安全领域的大语言模型（LLMs）评估中具有重要应用。通过包含多种题型（如选择题和简答题）和多层次能力评估（知识保持与逻辑推理），SecBench为研究人员提供了一个全面的基准测试工具。其多语言（中英文）和多领域（如数据安全、网络基础设施安全等）的设计，使得该数据集能够广泛应用于不同背景和需求的LLMs评估场景。

解决学术问题

SecBench解决了现有基准测试在网络安全领域中的局限性，特别是数据量不足和题型单一的问题。通过引入简答题和多层次能力评估，SecBench能够更全面地评估LLMs在复杂网络安全问题中的表现。该数据集为学术界提供了一个标准化的评估工具，推动了LLMs在网络安全领域的研究进展，并为模型性能的改进提供了数据支持。

实际应用

SecBench的实际应用场景包括网络安全领域的模型性能评估、教育培训以及安全策略的制定。通过该数据集，企业可以评估其内部使用的LLMs在应对网络安全威胁时的能力，从而优化模型性能。此外，SecBench还可用于网络安全课程的开发，帮助学生和从业者更好地理解复杂的安全问题，并提升其解决实际问题的能力。

数据集最近研究