five

SecReEvalBench|语言模型安全评估数据集|对抗性攻击数据集

收藏
arXiv2025-05-12 更新2025-05-14 收录
语言模型安全评估
对抗性攻击
下载链接:
https://anonymous.4open.science/r/SecEval-Bench-BB5C/README.md
下载链接
链接失效反馈
资源简介:
SecReEvalBench是一个针对大型语言模型的安全韧性评估基准数据集,旨在评估模型在对抗性提示攻击下的安全性。数据集涵盖了七个安全领域和17种攻击技术,包括良性提示攻击和恶意提示攻击。数据集通过六种询问序列进行评估,包括一次性攻击、连续攻击、连续反向攻击、替代恶意攻击、顺序递增攻击(增加恶意程度)和顺序递减攻击(减少恶意程度)。数据集的创建旨在为大型语言模型的安全研究提供基础,并帮助识别和缓解潜在的安全威胁。
提供机构:
悉尼科技大学计算机科学学院
创建时间:
2025-05-12
原始信息汇总

SecReEvalBench: 安全韧性评估基准

数据集概述

SecReEvalBench是一个用于评估大语言模型对抗基于提示的对抗攻击的韧性基准。该基准定义了四个新颖的指标,并采用六种提问序列进行模型评估。数据集包含中性和恶意提示攻击,涵盖七个安全领域和16种攻击技术。

关键信息

  • 总提示数: 2240
  • 恶意等级: 等级1-等级4
  • 安全领域:
    • 物理安全
    • 数据安全
    • 应用安全
    • 网络安全
    • 终端安全
    • 身份和访问安全
    • 操作安全
  • 攻击技术:
    • 顺序稀释
    • 连接攻击
    • 直接提问
    • 角色扮演
    • 推测性询问
    • 上下文伪装
    • 情感诉求
    • 伦理困境
    • 预防查询
    • 交叉引用
    • 历史实践
    • 语义混淆
    • 利用模糊性
    • 文化引用
    • 认知失调
    • 非标准脚本
    • 中性询问
  • 提问序列:
    • 一次性攻击
    • 连续攻击
    • 反向连续攻击
    • 顺序降序攻击
    • 顺序升序攻击
    • 交替攻击
  • 评估指标:
    • 提示攻击韧性得分
    • 提示攻击拒绝逻辑得分
    • 基于链的攻击韧性得分
    • 基于链的攻击拒绝时间得分

使用要求

  • Python
  • Ollama (需更新至最新版本)
  • langchain_ollama
AI搜集汇总
数据集介绍
main_image_url
构建方式
SecReEvalBench数据集的构建基于对大型语言模型在安全敏感领域中的脆弱性评估需求。研究者首先定义了七种安全领域和17种攻击技术,涵盖了从物理安全到操作安全的广泛范围。通过结合良性提示和恶意提示攻击,数据集构建了六种提问模式,包括一次性攻击、连续攻击、连续反向攻击等,以模拟真实场景中的多轮对话攻击。此外,数据集还引入了四种新颖的评估指标,以全面衡量模型在不同攻击模式下的安全韧性。
特点
SecReEvalBench数据集的特点在于其全面性和多样性。它不仅覆盖了多种安全领域和攻击技术,还通过六种不同的提问序列模拟了真实世界中的复杂对话场景。数据集的恶意提示攻击被分为四个恶意级别,并通过独立评估确保了其标注的准确性。此外,数据集还提供了四种新的评估指标,能够从多个维度量化模型的安全性能,包括攻击韧性、拒绝逻辑、链式攻击韧性等。
使用方法
SecReEvalBench数据集的使用方法主要包括三个步骤:首先,用户可以选择特定的安全领域和攻击技术,生成或选择相应的提示序列;其次,通过六种提问模式对目标语言模型进行测试,记录其响应;最后,利用数据集提供的四种评估指标对模型的性能进行量化分析。数据集还支持用户自定义评估场景,以适应不同的研究需求。通过这种方式,研究者可以系统地评估和比较不同语言模型在安全韧性方面的表现。
背景与挑战
背景概述
SecReEvalBench是由悉尼科技大学的Huining Cui和Wei Liu团队于2024年提出的安全评估基准数据集,旨在系统评估大语言模型在对抗性提示攻击下的安全韧性。该数据集填补了现有评估工具在意图驱动对抗提示和真实场景连续攻击评估方面的空白,涵盖7个安全领域和17种攻击技术,包含良性及恶意提示攻击的六种提问序列。作为首个整合多轮对话和上下文保留的安全评估框架,该数据集为LLM安全研究提供了标准化测试平台,推动了可信语言模型的发展。
当前挑战
该数据集主要面临两方面的挑战:在领域问题层面,需解决大语言模型对复杂多轮对抗提示的防御能力评估难题,特别是针对语义混淆、上下文伪装等新型攻击技术的检测;在构建过程层面,存在恶意意图标注一致性维护、多轮攻击场景真实性模拟等技术难点,以及评估指标设计中安全响应逻辑与语义合理性平衡的挑战。此外,基准测试需要克服不同模型安全策略差异带来的评估标准化问题,确保跨模型比较的公平性。
常用场景
经典使用场景
SecReEvalBench作为大型语言模型安全评估的基准数据集,其经典使用场景主要聚焦于对抗性提示攻击下的模型韧性测试。在网络安全和人工智能安全交叉领域,该数据集通过精心设计的恶意提示序列,模拟了现实世界中攻击者可能采用的多轮对话策略,包括一次性攻击、连续攻击、反向攻击等六种典型攻击模式。研究人员可利用该数据集全面评估不同LLM在复杂对话环境下识别和抵御安全威胁的能力,特别是在金融、医疗等敏感领域的实际部署前安全验证中具有重要价值。
实际应用
在实际应用层面,SecReEvalBench已成为企业级LLM部署前的重要安全审计工具。云服务提供商利用该数据集对API接口进行渗透测试,识别模型在客户服务对话中可能存在的提示注入漏洞;金融机构则通过连续攻击场景评估风控模型的会话持久化防御能力。特别在医疗健康领域,该数据集帮助验证电子健康记录查询系统中LLM对隐私泄露攻击的抵抗性,确保HIPAA合规性。安全团队还可基于评估结果优化RLHF训练策略,提升模型在真实业务场景中的安全边界。
衍生相关工作
该数据集已衍生出多个标志性研究方向:在评估框架方面,催生了面向特定领域的SecEval-Healthcare等垂直领域基准;在防御机制领域,启发了基于对抗训练的ChainDefender等连续攻击防御系统;在评估方法论上,促进了ATT&CK for LLM等威胁建模框架的发展。其构建的多轮攻击范式被SG-Bench 2.0等后续研究采纳为标准测试流程,而提出的安全指标体系则被CVALUES-X等跨文化安全评估项目改造应用。这些衍生工作共同推动了LLM安全评估从单点测试向系统化、场景化方向的演进。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录