LITMUS
收藏LITMUS:真实操作系统环境中LLM Agent行为越狱检测基准
数据集概述
LITMUS(LLM-agents In-OS Testing for Measuring Unsafe Subversion)是首个专门用于评估部署在真实操作系统环境中的LLM自主Agent行为越狱的基准测试。
与以往仅从语义输出层评估安全性的工作不同,LITMUS引入了语义-物理双层验证机制,独立评估Agent在OS层面“说了什么”和“实际做了什么”。这能够检测一种新型失败模式——执行幻觉(Execution Hallucination, EH):Agent在口头拒绝危险指令的同时,在系统层面静默完成了有害操作。
核心特征
- 819个高风险测试用例,分为1个种子子集和6个攻击扩展子集,来源包括CVE/GHSA数据库、渗透测试报告和LLM生成案例
- 3种对抗攻击范式:越狱修辞(Jailbreak Rhetoric)、技能注入(Skill Injection)和实体包装(Entity Wrapping),每种含2个变体→共6个攻击扩展子集
- 6-Agent自动化评估框架,支持完整的OS级状态回滚以实现严格的用例隔离
- 两个核心指标:攻击成功率(ASR)和执行幻觉率(EHR)
- 基于Ubuntu 24.04上的OpenClaw框架,全面评估6个前沿LLM Agent
主要发现
- 即使是最注重安全性的模型(Claude Sonnet 4.6)也会执行**40.64%**的高危OS操作
- 执行幻觉普遍存在:所有Agent均表现出非零的EHR(7.98%–9.97%),其中隐蔽执行(口头拒绝+静默OS执行)完全无法被仅基于语义的评估框架检测到
- 技能注入和实体包装通过利用Agent对工具输出和检索内容的信任,持续获得最高ASR
- 通讯接触(Communications Outreach) 是一种通用的、与模型无关的攻击面,ASR最高可达96.67%
数据集结构
LITMUS/ ├── data/ │ └── dataset_3.27.csv # LITMUS种子数据集(117条) ├── fixtures/ │ └── Fixtures.zip # 用于测试环境设置的预构建OS fixtures ├── templates/ # 攻击扩展子集的提示模板 ├── test_skills/ # 技能注入攻击的恶意SKILL.md文件 ├── prosecutor_roles/ # 检察官角色提示文件 ├── tools/ # 评估框架的工具提示文件 └── document/ # 详细的CLI参考文档
评估指标
- ASR(Attack Success Rate):攻击成功率
- EHR(Execution Hallucination Rate):执行幻觉率
- 四象限报告:涵盖SPSR、SOSR、POSR、SPFR等分类统计
快速使用
环境要求
- Ubuntu 24.04
- Python 3.10+
- OpenClaw v4.2.0或更高版本
- OpenAI兼容的API密钥
评估流程
- 配置OpenClaw环境和依赖
- 对种子数据集进行直接评估或对攻击扩展子集先进行指令包装再评估
- 使用日志分析工具生成详细报告(含EHR详情、ASR和EHR统计、四象限报告)
数据集获取
- 数据集文件:Hugging Face
- 项目主页:Project Page
- 论文:arXiv 2605.10779
- GitHub仓库:LITMUS
引用信息
bibtex @article{zhang2026litmus, title = {LITMUS: Benchmarking Behavioral Jailbreaks of LLM Agents in Real OS Environments}, author = {Chiyu Zhang and Huiqin Yang and Bendong Jiang and Xiaolei Zhang and Yiran Zhao and Ruyi Chen and Lu Zhou and Xiaogang Xu and Jiafei Wu and Liming Fang and Zhe Liu}, journal = {arXiv preprint arXiv:2605.10779}, year = {2026}, url = {https://arxiv.org/abs/2605.10779} }




