jailbreak-prompts-allam-allam-2-34b-dev-responses
收藏Hugging Face2025-10-22 更新2025-10-22 收录
下载链接:
https://huggingface.co/datasets/collinear-ai/jailbreak-prompts-allam-allam-2-34b-dev-responses
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了用于训练的自然语言处理任务的多个字段,包括问题、伤害和攻击类别、不同模型的响应和判定结果等。具体应用场景和详细描述在README文件中未提供。
提供机构:
Collinear AI
创建时间:
2025-10-22
原始信息汇总
数据集概述
基本信息
- 数据集名称: jailbreak-prompts-allam-allam-2-34b-dev-responses
- 数据量: 3,564个样本
- 数据集大小: 25,793,241字节
- 下载大小: 10,868,816字节
- 数据分割: 训练集(train)
特征结构
核心特征
- id: 样本标识符(字符串类型)
- prompt: 提示文本(字符串类型)
- harm_category: 危害类别(字符串类型)
- attack_category: 攻击类别(字符串类型)
- source: 数据来源(字符串类型)
模型响应特征
- response: 模型响应(字符串类型)
- llama2_7b_response: Llama2-7B模型响应(字符串类型)
- allam-2-34b-dev-english-response: Allam-2-34B-Dev英文响应(字符串类型)
- llama2_13b_response_arabic: Llama2-13B阿拉伯语响应(字符串类型)
- llama2_7b_response_arabic: Llama2-7B阿拉伯语响应(字符串类型)
评估与分类特征
- gpt4o_mini_harm_category: GPT4o Mini危害分类(字符串类型)
- gpt4o_mini_subcategory: GPT4o Mini子类别(字符串类型)
- gpt4o_mini_subcategory_response: GPT4o Mini子类别响应(字符串类型)
- llama2_7b_judgement_phi: Llama2-7B判断评分(浮点数类型)
- gpt4o_judgment_llama7b: GPT4o对Llama7B的判断(整数类型)
阿拉伯语相关特征
- arabic_prompt: 阿拉伯语提示(字符串类型)
- sdaia_harm_category: SDAIA危害类别(空值类型)
- sdaia_subcategory: SDAIA子类别(字符串类型)
原始判断数据
- raw_result_llama7b_judgement: Llama7B判断原始结果(字符串类型)
- raw_rationale_llama7b_judgement: Llama7B判断原始理由(字符串类型)
搜集汇总
数据集介绍

构建方式
在人工智能安全研究领域,该数据集通过系统化收集与标注对抗性提示构建而成。其核心方法涉及从多样化来源整合原始提示,并利用多个先进语言模型生成相应回复,包括Llama2系列与GPT-4o等架构。每条数据均经过精细标注,涵盖危害类别、攻击分类及多模型响应对比,通过结构化字段实现跨语言(英语与阿拉伯语)与跨模型的系统性对齐,为研究模型安全边界提供标准化数据基础。
特点
该数据集最显著的特征在于其多维度的安全评估体系,不仅包含原始提示与模型响应,还整合了来自不同架构的 harm_category 与 attack_category 双重分类标签。特别值得注意的是其双语支持能力,通过 arabic_prompt 与对应阿拉伯语响应字段实现跨文化场景覆盖。数据集通过 gpt4o_mini_subcategory_response 等字段展现细粒度危害分析,并利用 judgement 字段提供自动化安全评估结果,形成完整的对抗测试闭环。
使用方法
研究人员可借助该数据集开展大语言模型安全性与鲁棒性研究,通过对比不同模型在相同对抗提示下的响应差异,深入分析模型脆弱性。典型应用流程包括:基于 harm_category 进行危害类型聚类分析,利用多模型响应字段开展跨架构安全性比较,或结合 judgement 字段验证自动化评估系统的有效性。该数据集支持端到端的安全测试 pipeline 构建,为开发更可靠的AI安全防护机制提供实证基础。
背景与挑战
背景概述
随着大语言模型在自然语言处理领域的广泛应用,其安全性评估成为关键研究方向。jailbreak-prompts-allam-allam-2-34b-dev-responses数据集由Allam研究团队于2023年构建,专注于对抗性提示攻击的检测与防御机制研究。该数据集通过系统收集多语言越狱提示及其对应模型响应,旨在揭示大语言模型在面临恶意诱导时存在的安全漏洞,为构建鲁棒性更强的对话系统提供重要数据支撑。
当前挑战
该数据集需解决大语言模型安全对齐中的核心挑战:如何准确识别跨语言、跨文化背景的越狱攻击模式。构建过程中面临多维度难题,包括对抗性提示的语义边界界定困难,多模型响应一致性标注的复杂度,以及阿拉伯语与英语间文化语境转换导致的安全评估偏差。此外,不同规模语言模型对相同攻击的差异化响应模式,亦增加了安全漏洞系统性分析的难度。
常用场景
经典使用场景
在人工智能安全领域,该数据集为研究大语言模型对抗性攻击提供了关键资源。通过包含多种越狱提示及其对应的模型响应,研究人员能够系统分析模型在面对恶意输入时的防御机制失效模式。典型应用包括评估模型对有害内容生成、隐私泄露及伦理越界行为的抵抗能力,为构建更稳健的对话系统奠定实验基础。
实际应用
在实际部署场景中,该数据集被广泛应用于AI产品的红队测试与安全审计。企业通过复现数据集中记录的越狱攻击模式,可预先检测智能客服、内容生成系统等应用的安全漏洞。政府部门亦借助此类数据制定数字内容监管标准,特别是在多语言环境下防范意识形态渗透和网络犯罪活动。
衍生相关工作
基于该数据集衍生的经典研究包括多模态越狱检测框架开发与跨模型安全迁移学习。例如结合GPT-4与Llama2的联合评估机制,开创了动态对抗训练的新范式。后续工作进一步拓展至阿拉伯语等低资源语言的安全对齐研究,推动了文化敏感型AI伦理评估标准的建立。
以上内容由遇见数据集搜集并总结生成



