SEAS
收藏Hugging Face2024-12-23 更新2024-12-24 收录
下载链接:
https://huggingface.co/datasets/diaomuxi/SEAS
下载链接
链接失效反馈官方服务:
资源简介:
SEAS数据集包括SEAS-Test(2K)和SEAS-Train(16K)两个子集,数据来源于众包平台的手动重写和标注,以及通过模型增强生成的数据,使用了如CPAD、HarmfulQA和ALERT等开源安全数据集。数据集整合了风险类别和攻击风格两个关键维度,提供了分析对话系统中有害交互的综合框架。风险类别关注内容中潜在危害的类型,如隐私侵犯、健康风险等;攻击风格描述了利用系统漏洞的具体战术或技术,如越狱、令牌操纵等。此外,数据集还包含了一些具体的攻击类型和风险类别的详细描述。
The SEAS dataset comprises two subsets: SEAS-Test (2K) and SEAS-Train (16K). Its data is sourced from manual rewrites and annotations on crowdsourcing platforms, as well as data generated via model augmentation, with the integration of open-source safety datasets such as CPAD, HarmfulQA, and ALERT. The dataset integrates two key dimensions: risk categories and attack styles, providing a comprehensive framework for analyzing harmful interactions in dialogue systems. Risk categories focus on the types of potential harms in the content, such as privacy violations, health risks, etc. Attack styles describe specific tactics or techniques that exploit system vulnerabilities, such as jailbreaking, token manipulation, etc. Additionally, the dataset includes detailed descriptions of specific attack types and risk categories.
创建时间:
2024-12-23
原始信息汇总
SEAS 数据集概述
数据集简介
SEAS(Self-Evolving Adversarial Safety)数据集是一个用于增强大型语言模型(LLM)安全性的优化框架。该数据集包括SEAS-Test(2K)和SEAS-Train(16K)两个子集。
数据来源
SEAS 数据集的示例通过众包平台收集,并经过手动重写和标注。此外,还通过模型增强生成了额外的示例,使用了开源的安全数据集,如 CPAD、HarmfulQA 和 ALERT。
数据类型
SEAS 数据集整合了两个关键维度:风险类别和攻击风格,提供了一个全面的框架来分析对话系统中的有害交互。
风险类别
- 隐私侵犯
- 健康风险
- 不安全指令
- 歧视性语言
攻击风格
- 角色扮演
- 会话完成
- 目标劫持
- 令牌操纵
- 对抗前缀
- 代码嵌套
- 越狱
- 单方面陈述
- 文字游戏
- 不公平和歧视
- 不安全指令
- 隐私和财产
- 健康危害
- 犯罪和非法活动
免责声明
SEAS 数据集及其系列包含可能令人反感或不安的内容。主题包括但不限于歧视性语言、虐待、暴力、自残、剥削和其他可能令人不安的主题。请负责任地使用数据集,并根据您个人的风险承受能力进行操作。该数据集旨在用于研究目的,特别是旨在创建更安全、危害更小的 AI 系统的研究。
许可证
SEAS 数据集及其系列根据 CC BY-NC 4.0 许可证发布。
搜集汇总
数据集介绍

构建方式
SEAS数据集的构建融合了多种来源,包括通过众包平台收集并手动重写和标注的样本,以及利用开源安全数据集(如CPAD、HarmfulQA和ALERT)进行模型增强生成的额外样本。这种多源数据的整合确保了数据集的多样性和广泛性,从而为大语言模型的安全性优化提供了丰富的训练和测试资源。
特点
SEAS数据集的显著特点在于其双维度的分类体系,即风险类别和攻击风格。风险类别侧重于识别内容中潜在的危害类型,如隐私侵犯、健康风险等;而攻击风格则描述了利用系统漏洞的具体策略,如越狱、令牌操纵等。这种结构化的分类方式为分析对话系统中的有害交互提供了全面的框架,有助于深入理解风险来源及其生成机制。
使用方法
SEAS数据集主要用于研究目的,旨在通过分析和训练提升大语言模型的安全性。用户可以通过该数据集进行模型评估、对抗性训练以及安全策略的开发。值得注意的是,该数据集不应用于训练对话代理,以免导致有害的模型行为。使用时应遵循相关许可协议,并确保在研究中负责任地处理可能包含敏感或不适内容的数据。
背景与挑战
背景概述
SEAS数据集是由BUPT-PRIS团队开发的自进化对抗安全优化框架(Self-Evolving Adversarial Safety, SEAS)的重要组成部分,旨在通过模型生成的数据增强大型语言模型(LLM)的安全性。该数据集包括SEAS-Test(2K样本)和SEAS-Train(16K样本),结合了众包平台收集的手动重写和标注数据,以及通过开源安全数据集(如CPAD、HarmfulQA和ALERT)进行模型增强生成的数据。SEAS数据集的核心研究问题在于通过风险类别和攻击风格两个维度,全面分析对话系统中的有害交互,从而为构建更安全的AI系统提供支持。
当前挑战
SEAS数据集在构建过程中面临多重挑战。首先,如何有效整合众包数据与模型生成的数据,确保数据质量与多样性,是一个关键问题。其次,风险类别和攻击风格的分类需要精确且全面,以涵盖所有潜在的有害交互场景。此外,数据集中包含的敏感和潜在冒犯性内容,要求在处理和使用时格外谨慎,避免对用户和社会造成负面影响。最后,如何在不影响模型性能的前提下,利用该数据集进行安全优化研究,也是一项技术挑战。
常用场景
经典使用场景
SEAS数据集在大型语言模型(LLM)的安全性优化中扮演着至关重要的角色。其经典使用场景主要体现在通过对抗性数据生成和自我进化机制,提升模型在面对潜在风险时的鲁棒性。具体而言,SEAS-Train和SEAS-Test数据集分别用于模型的训练和测试,通过模拟多种攻击风格和风险类别,帮助模型识别并防御隐私泄露、健康风险、歧视性语言等有害内容。
实际应用
在实际应用中,SEAS数据集主要用于训练和评估对话系统的安全性。例如,在医疗咨询、法律咨询等高风险领域,SEAS可以帮助模型识别并避免生成可能误导用户或造成伤害的回答。此外,该数据集还可用于开发更智能的过滤系统,确保用户在与AI交互时不会接触到有害或不适当的内容。
衍生相关工作
SEAS数据集的推出催生了一系列相关研究工作。例如,基于SEAS的对抗性训练方法已被广泛应用于提升模型的鲁棒性,而其风险分类和攻击风格的分析框架也为其他安全性研究提供了参考。此外,SEAS还激发了对AI伦理和安全性更深层次的探讨,推动了相关领域的技术进步和标准制定。
以上内容由遇见数据集搜集并总结生成



