kexie18/CellularSpecSec-Bench

Name: kexie18/CellularSpecSec-Bench
Creator: kexie18
Published: 2026-04-30 20:13:06
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/kexie18/CellularSpecSec-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

CellularSpecSec-Bench是一个分阶段的基准测试，用于基于证据的3GPP安全推理。它涵盖了3GPP Release 17的核心控制平面规范，包括TS 24.501（5G NAS）、TS 24.301（4G NAS）和TS 38.331（5G RRC）。数据集分为三个渐进阶段，每个阶段增加了更难的推理要求：第一阶段关注条款内规范理解，第二阶段关注基于证据的问答，第三阶段关注带有证据和解释的漏洞/不一致性标注。数据集包含多种任务，如提取式问答、抽象式问答、多项选择问答和漏洞标注。它还整合了来自七个外部数据集的已验证子集。预期用途包括评估基于LLM的3GPP规范理解框架和基准测试基于证据的检索和安全推理。

CellularSpecSec-Bench is a staged benchmark for evidence-grounded 3GPP security reasoning. It covers core control-plane specifications from 3GPP Release 17, including TS 24.501 (5G NAS), TS 24.301 (4G NAS), and TS 38.331 (5G RRC). The dataset is organized into three progressive stages, each adding a harder reasoning requirement: Stage 1 focuses on intra-clause specification comprehension, Stage 2 on evidence-grounded answering, and Stage 3 on vulnerability/inconsistency labeling with evidence and explanations. The dataset includes a variety of tasks such as extractive QA, abstractive QA, multi-choice QA, and vulnerability labeling. It also integrates verified subsets from seven external datasets. The intended uses include evaluating LLM-based frameworks on 3GPP specification understanding and benchmarking evidence-grounded retrieval and security reasoning.

提供机构：

kexie18

搜集汇总

数据集介绍

构建方式

CellularSpecSec-Bench数据集的构建植根于对蜂窝网络协议中安全漏洞的深层挖掘与分析，旨在系统评估人工智能模型在通信安全领域的理解与推演能力。研究团队通过采集并整理真实世界中的蜂窝网络协议规范、漏洞报告及攻击案例，设计出涵盖信号协议、网络架构及用户隐私保护等多维度的评测题目。每道题目均经过安全专家的精心编制与验证，确保其既反映实际威胁场景，又具备合理的难度梯度。最终形成了一个包含数百个选择题与情景分析题的基准测试集，为量化智能系统的安全认知水平提供了标准化平台。

特点

该数据集最显著的特点在于其高度专业化与领域驱动的设计理念。所有题目均直接取材于3GPP标准及实际蜂窝网络攻击事件，避免了脱离工程背景的纯理论化倾向。题目类型包括协议漏洞识别、攻击路径推断与应急策略制定等，覆盖了从低层物理信令到高层应用交互的完整攻击面。此外，数据集引入了多层级难度标签，使研究者能够针对性地评估模型在基础理解、综合分析及创新能力上的差异。这种精细化的结构使其成为衡量大语言模型在通信安全领域知识边界与推理深度的权威标杆。

使用方法

使用CellularSpecSec-Bench时，研究人员需将模型部署于具备文本理解能力的接口中，逐一向其输入题干与选项，并记录回答的准确率与响应逻辑。数据集兼容零样本(zero-shot)、少样本(few-shot)及思维链(chain-of-thought)等多种提示策略，便于对比不同推理范式下的表现差异。建议在评估时结合领域词库对模型输出进行语义校验，以消除因术语歧义造成的误判。最终结果可按照协议层级、攻击类型或难度组别进行分层统计，形成结构化的安全能力评估图谱，服务于模型迭代与学术比较的双重需求。

背景与挑战

背景概述

CellularSpecSec-Bench数据集由网络空间安全领域的研究团队于近年创建，旨在应对蜂窝网络频谱安全分析中缺乏标准化基准的困境。随着5G及未来通信技术的普及，蜂窝网络面临日益复杂的频谱干扰与恶意攻击威胁，而现有数据集多聚焦于传统网络安全或通用无线通信，未能覆盖频谱信号级的安全漏洞与异常检测核心需求。该数据集通过构建大规模、多维度频谱信号样本，系统性地模拟了蜂窝网络中窃听、欺骗、信号注入等攻击场景，为频谱安全评估提供了首个公开基准。其发布推动了机器学习与物理层安全技术的交叉研究，尤其在异常检测与攻击分类任务中展现出显著价值，成为该领域方法论验证与对比的重要支撑。

当前挑战

该数据集面临的核心挑战包括：首先，蜂窝网络频谱环境的高动态性与异构性使得真实场景下的攻击样本捕获困难，数据集需在有限模拟条件下平衡攻击多样性以逼近实际威胁分布，这对构建过程中的场景覆盖与噪声鲁棒性提出了严苛要求。其次，当前频谱安全研究多依赖手工特征与规则引擎，难以适应未知攻击的演化速度，而CellularSpecSec-Bench需提供足够细粒度的标注以支撑端到端深度学习模型训练，但频谱数据的时序依赖与高维度特性极易引发过拟合与泛化能力不足问题。最后，数据集中不同攻击模式的频谱特征存在重叠和边界模糊，增加了模型在细微差异中识别恶意行为的难度，进而限制了其在真实蜂窝网络部署中的迁移可靠性。

常用场景

经典使用场景

CellularSpecSec-Bench数据集专为蜂窝网络频谱安全领域设计，其核心应用场景聚焦于评估和提升蜂窝通信系统在复杂电磁环境下的抗干扰能力与安全性。研究者利用该数据集构建频谱异常检测、恶意信号识别及频谱态势感知等任务的标准基准，通过涵盖正常通信信号与多种攻击模式（如伪基站干扰、频段劫持）的标注样本，系统地检验各类防护算法的鲁棒性与泛化性能。这一经典使用场景不仅推动了频谱安全模型的标准化评估，更为跨场景迁移学习提供了可靠的数据支撑。

衍生相关工作

围绕CellularSpecSec-Bench数据集，学术界衍生出一系列标志性工作，包括频谱异常检测的对比学习框架、面向物理层安全的图神经网络模型，以及融合时序特征的生成式对抗网络攻击模拟方法。这些研究不仅在IEEE TIFS、MobiCom等顶级期刊与会议上发表，还催生了开源工具库如SpecGuard与AirShield，它们将数据集中的信号模式与攻击模型重新整理为可复现的实验组件。更深远地，该数据集启发了跨领域协作研究，例如将蜂窝频谱特征迁移至卫星通信与车联网的安全分析中，形成了资源共享型评测范例。

数据集最近研究