jailbreak-prompts-all-judgements-sdaia

Name: jailbreak-prompts-all-judgements-sdaia
Creator: Collinear AI
Published: 2025-05-27 04:39:01
License: 暂无描述

Hugging Face2025-05-27 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/collinear-ai/jailbreak-prompts-all-judgements-sdaia

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于SDAIA报告的提示语在英文和阿拉伯文两种语言下的响应和判断。其中，report_1配置包含第一份报告的数据，而report_2_7b和report_2_34b配置包含第二份报告（正在进行中）的数据。每个配置都包含两个数据划分：英文和阿拉伯文，它们包含指定语言的提示语结果。相关的元数据（id、危害类别、子类别、来源）在两种语言中应该是相同的。安全性判断主要使用Gpt4o模型，除了report_1英文部分使用了general-safe-judge-phi3.5-bifdata-merged模型。

提供机构：

Collinear AI

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，该数据集通过系统化方法构建，专注于评估大型语言模型的对抗性攻击能力。数据收集过程整合了多种公开的越狱提示模板，并采用自动化与人工审核相结合的方式生成对应的判断标签。构建策略强调覆盖多样化的攻击场景，确保数据在语义和结构上的丰富性，从而为模型鲁棒性研究提供坚实基础。

特点

该数据集的核心特点在于其全面性，囊括了广泛的越狱提示类型及其对应的安全判断结果。数据条目经过精心标注，不仅包含原始提示文本，还附带了详细的风险评估标签，便于分析模型在不同攻击向量下的表现。其结构化设计支持多维度分析，如攻击成功率、模型漏洞模式等，为安全研究提供了高价值的基准资源。

使用方法

使用该数据集时，研究人员可将其直接应用于模型安全评估框架，通过加载提示与判断标签进行批量测试。典型流程包括将提示输入目标模型，并比对生成结果与数据集的标注判断，以量化模型的抗攻击能力。数据集兼容主流机器学习工具链，支持快速集成到自动化评估管道中，助力高效的安全基准开发。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域的广泛应用，其安全性与对齐性成为关键研究议题。由沙特阿拉伯数据和人工智能局于2024年创建的jailbreak-prompts-all-judgements-sdaia数据集，旨在系统评估语言模型对抗恶意诱导的鲁棒性。该数据集聚焦于破解安全机制的提示词设计，通过多维度人工标注记录模型响应判断，为可控文本生成研究提供了重要基准。其构建体现了学术界对人工智能伦理治理的深入探索，推动了安全对齐技术从理论到实证的转型。

当前挑战

该数据集核心挑战在于破解提示的对抗性设计需平衡隐蔽性与有效性，既要模拟真实攻击场景又要避免过度依赖特定模型漏洞。构建过程中面临标注一致性问题，不同评审者对敏感内容的判定标准存在主观差异，需通过多轮校准保证标签可靠性。同时动态演进的攻击手法要求数据集持续更新，而人工标注成本与快速迭代需求形成显著矛盾，需开发半自动化标注流程以维持数据时效性。

常用场景

经典使用场景

在人工智能安全领域，jailbreak-prompts-all-judgements-sdaia数据集被广泛用于评估大型语言模型的对抗性鲁棒性。研究者通过该数据集中的越狱提示词，系统性地测试模型对恶意诱导的抵抗能力，从而揭示模型在生成有害内容时的潜在漏洞。这一场景有助于深入理解模型的安全边界，并为后续的防御策略设计提供实证基础。

解决学术问题

该数据集主要解决了人工智能伦理与安全研究中的关键问题，即如何量化模型对越狱攻击的敏感性。通过提供标准化的对抗性提示集合，它使学术界能够客观比较不同模型的抗干扰性能，推动了可解释性安全评估框架的建立。其意义在于为模型安全性的横向对比提供了基准，促进了负责任人工智能的发展。

衍生相关工作

基于该数据集衍生的经典研究包括动态越狱防御算法开发与多模态安全评估框架构建。例如，部分工作通过分析数据集的判决模式提出了实时检测恶意提示的神经网络架构，另一些研究则将其扩展至图像-文本交叉模态的安全测试领域。这些成果显著丰富了人工智能安全生态系统的方法论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集