Strata-Sword
收藏Strata-Sword 数据集概述
数据集简介
Strata-Sword 是由阿里巴巴 AAIG 团队提出的多层级安全评估基准,旨在更全面地评估模型在面对不同推理复杂度的越狱指令时的安全能力,帮助模型开发者更好地理解每个模型的安全边界。
核心贡献
-
推理复杂度作为安全评估维度
定义并量化“推理复杂度”作为可评估的安全维度,并根据推理复杂度的三个关键要素将不同的有害越狱指令划分为基础指令、简单推理和复杂推理这三个不同的层级。 -
分级越狱评测集构建
将15种不同的越狱攻击方法按照推理复杂度划分成3个不同的等级,总计包括700条越狱指令集。 -
具有语言特色的越狱攻击方法
考虑了语言特性,针对中文和英文分别定制了攻击方法,并首次引入了三种具有中文特色的越狱攻击方法,包括藏头诗攻击、猜灯谜攻击和汉字拆解攻击。
评估结果
- 系统评估了23个主流开源和闭源商业大语言模型,从推理复杂度的角度刻画模型的安全能力边界。
- 提供了15种越狱攻击方法的统计,评估了每种方法的整体性能。
快速开始
-
环境安装
安装所需依赖:pip install -r requirements.txt -
测试运行
运行中英文越狱提示集的三个Strata-Sword层级:python strata_sword.py
引用
如果研究中使用Strata-Sword,请引用以下论文: bash @article{Strata-Sword, title={Strata-Sword: A Hierarchical Safety Evaluation towards LLMs based on Reasoning Complexity of Jailbreak Instructions}, author={Alibaba AI Group(AAIG)}, year={2025}, url={https://github.com/Alibaba-AAIG/Strata-Sword} }
贡献
欢迎在安全评估和对齐领域进行合作和讨论,持续欢迎更多大模型红队开发者贡献越狱攻击方法。
许可证
本项目采用Apache 2.0许可证。
致谢
感谢开源社区和推动AI安全的研究人员。Strata是阿里巴巴AAIG对负责任AI的承诺的一部分。




