Strata-Sword

github2025-08-25 更新2025-08-28 收录

下载链接：

https://github.com/Alibaba-AAIG/Strata-Sword

下载链接

链接失效反馈

官方服务：

资源简介：

Strata-Sword是一个多层次安全评估基准，包含700条越狱指令集，根据推理复杂度划分为基础指令、简单推理和复杂推理三个层级。该数据集将15种不同的越狱攻击方法按照推理复杂度分类，并针对中文和英文分别定制了攻击方法，首次引入了三种中文特色的越狱攻击方法：藏头诗攻击、猜灯谜攻击和汉字拆解攻击

Strata-Sword is a multi-level security evaluation benchmark consisting of 700 jailbreak instruction sets, divided into three tiers based on reasoning complexity: basic instructions, simple reasoning, and complex reasoning. This dataset classifies 15 distinct jailbreak attack methods according to reasoning complexity, and customizes attack approaches for both Chinese and English languages. For the first time, it introduces three Chinese-specific jailbreak attack methods: acrostic poem attack, lantern riddle guessing attack, and Chinese character decomposition attack.

创建时间：

2025-08-25

原始信息汇总

Strata-Sword 数据集概述

数据集简介

Strata-Sword 是由阿里巴巴 AAIG 团队提出的多层级安全评估基准，旨在更全面地评估模型在面对不同推理复杂度的越狱指令时的安全能力，帮助模型开发者更好地理解每个模型的安全边界。

核心贡献

推理复杂度作为安全评估维度
定义并量化“推理复杂度”作为可评估的安全维度，并根据推理复杂度的三个关键要素将不同的有害越狱指令划分为基础指令、简单推理和复杂推理这三个不同的层级。
分级越狱评测集构建
将15种不同的越狱攻击方法按照推理复杂度划分成3个不同的等级，总计包括700条越狱指令集。
具有语言特色的越狱攻击方法
考虑了语言特性，针对中文和英文分别定制了攻击方法，并首次引入了三种具有中文特色的越狱攻击方法，包括藏头诗攻击、猜灯谜攻击和汉字拆解攻击。

评估结果

系统评估了23个主流开源和闭源商业大语言模型，从推理复杂度的角度刻画模型的安全能力边界。
提供了15种越狱攻击方法的统计，评估了每种方法的整体性能。

快速开始

环境安装
安装所需依赖：pip install -r requirements.txt
测试运行
运行中英文越狱提示集的三个Strata-Sword层级：python strata_sword.py

引用

如果研究中使用Strata-Sword，请引用以下论文： bash @article{Strata-Sword, title={Strata-Sword: A Hierarchical Safety Evaluation towards LLMs based on Reasoning Complexity of Jailbreak Instructions}, author={Alibaba AI Group(AAIG)}, year={2025}, url={https://github.com/Alibaba-AAIG/Strata-Sword} }

贡献

欢迎在安全评估和对齐领域进行合作和讨论，持续欢迎更多大模型红队开发者贡献越狱攻击方法。

许可证

本项目采用Apache 2.0许可证。

致谢

感谢开源社区和推动AI安全的研究人员。Strata是阿里巴巴AAIG对负责任AI的承诺的一部分。

搜集汇总

数据集介绍

构建方式

在大型语言模型安全评估领域，Strata-Sword数据集通过系统化方法构建而成。研究团队首先定义了推理复杂度作为核心评估维度，依据逻辑链条长度、抽象思维需求和上下文依赖性三个关键要素，将越狱指令划分为基础指令、简单推理与复杂推理三个层级。随后整合了15种不同的越狱攻击方法，包括针对中英文语言特性定制的专项攻击策略，最终形成包含700条高质量越狱指令的多层级评估体系。

特点

该数据集的显著特征在于其层次化的评估框架设计，首次将推理复杂度量化为可评估的安全维度。数据集特别融入了语言特异性考量，创新性地引入了藏头诗攻击、猜灯谜攻击和汉字拆解攻击三种中文特色越狱方法，实现了跨语言安全能力的全面测评。其多层级结构能够精确刻画模型在不同认知负荷下的安全边界，为模型脆弱性分析提供了细粒度观测窗口。

使用方法

研究人员可通过简单的环境配置快速启用该数据集，使用pip安装依赖包后运行主程序即可自动执行三个层级的中英文越狱测试。评估过程将系统性地注入不同复杂度的越狱指令，通过量化模型响应生成详细的安全能力剖面图。该数据集支持对23种主流开源与商业大模型的横向对比，为模型加固策略提供实证依据，同时其模块化设计允许研究者灵活扩展新的攻击方法。

背景与挑战

背景概述

随着大型语言模型在各领域的深入应用，其安全性与对齐问题日益凸显。阿里巴巴AAIG团队于2025年推出的Strata-Sword数据集，创新性地引入推理复杂度作为安全评估维度，通过构建包含700条越狱指令的多层级评测基准，系统评估模型在面对不同复杂度有害指令时的安全边界。该数据集不仅涵盖15种越狱攻击方法，还首创性地融入了藏头诗、猜灯谜等中文特色攻击方式，为多语言环境下的模型安全研究提供了重要支撑。

当前挑战

Strata-Sword致力于解决越狱攻击中指令推理复杂度的量化难题，其核心挑战在于如何科学定义推理复杂度的评估维度，并将异构攻击方法映射到统一的分级体系中。数据构建过程中需克服多语言文化差异带来的语义歧义，特别是中文特有的语言现象（如汉字拆解、诗歌隐喻）与越狱逻辑的融合。此外，保持攻击方法有效性同时确保评估的公平性与可复现性，亦是该数据集面临的重要技术挑战。

常用场景

经典使用场景

在大型语言模型安全评估领域，Strata-Sword数据集通过构建分级越狱指令集，为研究人员提供了系统性的测试框架。该数据集将700条越狱指令按推理复杂度划分为基础指令、简单推理和复杂推理三个层级，支持对模型安全边界的多维度探测。研究者可通过运行标准化的测试流程，精确评估模型在面对不同复杂度恶意指令时的防御能力，从而建立更完善的安全性能图谱。

解决学术问题

该数据集创新性地将推理复杂度量化作为安全评估维度，解决了传统评估方法难以衡量模型应对复杂越狱攻击能力的学术难题。通过定义推理复杂度的三个关键要素，并构建包含15种攻击方法的分级评测体系，为大型语言模型安全性研究提供了可量化的评估标准。这项工作推动了AI安全评估从二元判断向多维能力分析的范式转变，为构建更鲁棒的AI对齐方法奠定了理论基础。

衍生相关工作

基于Strata-Sword的层级评估理念，学术界衍生出多个重要的研究方向。包括构建多语言越狱攻击基准、开发基于复杂推理的安全增强技术，以及建立动态安全评估框架等。该数据集催生的藏头诗攻击检测方法已被广泛应用于中文NLP安全研究，其提出的推理复杂度量化指标也为后续的Red-team自动化测试工具提供了核心设计思路，推动了AI安全评估领域的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集