h4rm3l
收藏arXiv2024-08-09 更新2024-08-14 收录
下载链接:
http://arxiv.org/abs/2408.04811v1
下载链接
链接失效反馈官方服务:
资源简介:
h4rm3l数据集由斯坦福大学计算机科学系创建,专注于大型语言模型(LLMs)的安全评估。该数据集包含2656条针对6种最先进(SOTA)开源和专有LLMs的成功新型越狱攻击记录。数据集的创建过程涉及使用领域特定语言(DSL)和基于bandit的少样本程序合成算法,生成针对目标LLMs的优化攻击。h4rm3l数据集主要应用于评估和提升LLMs的安全性能,特别是在对抗性和非对抗性环境下的鲁棒性测试。
The h4rm3l dataset, created by the Department of Computer Science at Stanford University, focuses on security evaluation of Large Language Models (LLMs). This dataset contains 2,656 records of successful, novel jailbreak attacks targeting six state-of-the-art (SOTA) open-source and proprietary LLMs. The dataset was developed using a domain-specific language (DSL) and a bandit-based few-shot program synthesis algorithm to generate optimized attacks against target LLMs. The h4rm3l dataset is primarily used to evaluate and enhance the security performance of LLMs, particularly for robustness testing in both adversarial and non-adversarial environments.
提供机构:
斯坦福大学计算机科学系
创建时间:
2024-08-09
搜集汇总
数据集介绍

构建方式
h4rm3l 数据集的构建采用了基于可组合的越狱攻击的动态方法,旨在超越静态数据集和攻击分类。其核心在于一个领域特定语言(DSL),将越狱攻击形式化为参数化的提示转换原语组合。此外,还采用了基于带点的少量样本程序合成算法,生成针对目标黑盒大型语言模型(LLM)的安全过滤器的攻击。最后,开源的自动化红队软件将这些组件整合,实现了对 LLM 安全性的评估。
特点
h4rm3l 数据集的特点在于其动态性和可组合性。通过 DSL,h4rm3l 能够将越狱攻击表示为参数化字符串转换原语的组合,使得攻击的探索和生成更加灵活和多样化。此外,h4rm3l 还能够生成具有高攻击成功率(ASR)的新型越狱攻击,这些攻击在针对多个 SOTA LLM 的测试中表现出色。
使用方法
使用 h4rm3l 数据集时,首先需要了解其基于 DSL 的攻击表示方法。然后,可以利用少量样本程序合成算法生成针对特定 LLM 的攻击。最后,通过评估攻击的 ASR 来衡量 LLM 的安全性。h4rm3l 的开源软件提供了对 LLM 安全性的评估和攻击生成的支持,有助于开发者测试模型的安全性并开发更有效的防御策略。
背景与挑战
背景概述
随着大型语言模型(LLMs)能力的显著提升,其安全性问题也日益凸显,尤其是在抵御生成有害内容的能力方面。现有的安全评估方法往往依赖于静态或模板化的攻击请求和对抗性提示,然而这些方法在面对不断演化和可组合的越狱攻击时显得力不从心。为了解决这个问题,斯坦福大学计算机科学系的Moussa Koulako Bala Doumbouya等研究人员提出了h4rm3l数据集。该数据集是一个动态的、可组合的越狱攻击基准,旨在系统地评估LLMs的安全性。h4rm3l由三个主要组件组成:一个用于形式化表达越狱攻击的领域特定语言(DSL)、基于bandit的少样本程序合成算法,以及一个开源的自动化红队软件。该数据集收集了2656个针对6个最先进的LLMs的成功越狱攻击,为LLMs的安全评估和防御提供了宝贵的资源。
当前挑战
h4rm3l数据集所面临的主要挑战包括:1) 不断演化的攻击方式,要求数据集能够持续更新以应对新的攻击策略;2) 构建过程中如何确保攻击的多样性和有效性,以全面评估LLMs的安全性;3) 在自动化红队软件中,如何确保攻击的合成过程既高效又安全,避免潜在的误用风险。此外,数据集的构建和评估过程还需要考虑伦理和道德因素,确保研究内容不会对社会造成负面影响。
常用场景
经典使用场景
在大型语言模型(LLM)的安全评估中,h4rm3l 数据集被广泛使用。该数据集通过生成可组合的越狱攻击,帮助研究人员评估和测试 LLM 的安全性。h4rm3l 数据集可以用于测试 LLM 的安全过滤机制,识别潜在的安全漏洞,以及评估 LLM 对各种攻击的抵抗力。
衍生相关工作
h4rm3l 数据集的提出和发布,为 LLM 安全评估领域带来了新的研究方向和挑战。该数据集不仅为 LLM 的安全评估提供了一个动态和可扩展的基准,还为 LLM 的安全防护机制的研究和开发提供了新的思路和方法。此外,h4rm3l 数据集的发布还促进了 LLM 安全评估工具和技术的创新和发展,为 LLM 的安全评估和应用提供了更多的可能性。
数据集最近研究
最新研究方向
针对大型语言模型(LLM)的安全性评估,h4rm3l数据集的提出引入了一种动态的、可组合的越狱攻击基准。该数据集不仅提供了对LLM安全性的系统评估,还通过生成针对LLM安全过滤器的攻击数据集,有助于理解LLM的安全限制,并支持在日益集成LLM的世界中开发稳健的防御措施。h4rm3l数据集的创建使用了一种域特定语言,该语言将越狱攻击正式表达为参数化提示转换原语的组合,并通过基于bandit的少样本程序合成算法生成新的攻击,以渗透目标LLM的安全过滤器。这项研究对于LLM的安全评估和防御策略的发展具有重要意义,尤其是在对抗不断发展和可组合的越狱攻击方面。
相关研究论文
- 1h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment斯坦福大学计算机科学系 · 2024年
以上内容由遇见数据集搜集并总结生成



