jailbreaking_toxigen_gemma

Hugging Face2025-11-27 更新2025-11-28 收录

下载链接：

https://huggingface.co/datasets/iagoalves/jailbreaking_toxigen_gemma

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含文本和相关标签的数据集，具体用途和内容未在README中明确描述。数据集分为训练集，包含大约4500个文本示例，每个示例包含多个标签，如目标群体、事实性、群体影响、低俗内容、框架、预测群体、刻板印象、意图、AI和人工评分的毒性等。

创建时间：

2025-11-26

原始信息汇总

数据集概述

基本信息

数据集名称: jailbreaking_toxigen_gemma
数据量: 4,495个样本
数据集大小: 183,210,489字节
下载大小: 98,720,859字节
数据格式: 结构化数据

数据结构

特征字段

文本内容: text (字符串)
目标群体: target_group (字符串)
事实性: factual? (字符串)
群体内效应: ingroup_effect (字符串)
低俗内容: lewd (字符串)
框架: framing (字符串)
预测群体: predicted_group (字符串)
刻板印象: stereotyping (字符串)
意图: intent (浮点数64位)
AI毒性评分: toxicity_ai (浮点数64位)
人类毒性评分: toxicity_human (浮点数64位)
预测作者: predicted_author (字符串)
实际方法: actual_method (字符串)
场景主题: scenario_theme (字符串)
场景: scenario (字符串)

越狱策略相关

越狱策略: jb_strategy (字符串)
越狱提示: jb_prompt (字符串)

模型响应

Gemma-3-4B-IT响应: jb_response_gemma-3-4b-it (字符串)
Gemma-3-12B-IT响应: jb_response_gemma-3-12b-it (字符串)
Gemma-3-27B-IT响应: jb_response_gemma-3-27b-it (字符串)
Gemma-3-1B-IT响应: jb_response_gemma-3-1b-it (字符串)
Qwen3-32B响应: jb_response_Qwen3-32B (字符串)
Qwen3-8B响应: jb_response_Qwen3-8B (字符串)
Qwen3-4B响应: jb_response_Qwen3-4B (字符串)
Qwen3-1.7B响应: jb_response_Qwen3-1.7B (字符串)
Llama-3.1-8B-Instruct响应: jb_response_Llama-3.1-8B-Instruct (字符串)

数据划分

训练集: 4,495个样本，183,210,489字节

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，jailbreaking_toxigen_gemma数据集通过系统化的对抗性提示工程构建而成。研究者基于ToxiGen框架生成具有潜在危害性的文本，并针对Gemma、Qwen、Llama等大型语言模型设计越狱策略。每个样本包含原始场景描述、越狱提示词及多个模型生成的响应，通过人工与自动标注结合的方式对毒性程度、群体目标、意图强度等维度进行多标签标注，最终形成包含4495条样本的标准化数据集。

特点

该数据集最显著的特征在于其多维度的毒性评估体系，不仅涵盖文本内容本身，还延伸至社会群体影响层面。每条数据记录包含16个结构化特征字段，包括目标群体标注、人类与AI双重视角的毒性评分、越狱策略分类及不同参数规模语言模型的对比响应。这种设计使得数据集能同时支持毒性检测、越狱攻击分析和模型鲁棒性研究，为评估语言模型的安全边界提供了丰富的比较基准。

使用方法

研究人员可通过加载标准数据拆分直接使用该数据集进行模型安全评估。典型应用包括训练毒性分类器、分析越狱策略的有效性模式、比较不同架构语言模型的抗攻击能力。使用时应重点关注jb_prompt与各模型响应字段的对应关系，结合toxicity_ai和toxicity_human评分构建监督信号。建议在伦理约束下开展研究，避免潜在有害内容的二次传播。

背景与挑战

背景概述

随着大型语言模型在社会各领域的广泛应用，其安全性与伦理对齐问题逐渐成为人工智能研究的核心议题。jailbreaking_toxigen_gemma数据集应运而生，专注于探索语言模型在对抗性提示下的安全漏洞与毒性生成机制。该数据集通过系统化构建越狱策略与毒性场景，为研究社区提供了评估模型鲁棒性与伦理边界的重要基准，其多维度标注体系深刻反映了当前人工智能安全领域的前沿探索方向。

当前挑战

该数据集致力于解决语言模型安全对齐中的核心难题——如何在对抗性攻击下维持模型输出的无害性与稳定性。构建过程中面临双重挑战：一方面需要设计具有语义复杂性的越狱提示以模拟真实攻击场景，另一方面需建立跨模型响应的一致性评估框架。多维度毒性标注的标准化与不同规模模型响应质量的平衡评估，进一步增加了数据集构建的技术复杂性。

常用场景

经典使用场景

在人工智能安全研究领域，jailbreaking_toxigen_gemma数据集被广泛应用于评估大型语言模型对恶意诱导攻击的抵抗能力。通过分析模型在对抗性提示下的响应行为，研究者能够系统性地检测模型生成有害内容的倾向，为构建更稳健的对话系统提供关键数据支撑。这种评估机制已成为衡量人工智能伦理对齐效果的重要基准，尤其在多模态语言模型快速发展的背景下显得尤为重要。

实际应用

在实际部署中，该数据集为互联网内容审核系统提供了重要的训练基准。科技公司利用其丰富的对抗性样本优化过滤算法，显著提升了对仇恨言论和偏见内容的识别准确率。政府部门也可借助该数据集制定人工智能伦理标准，确保公共服务领域使用的语言模型符合社会道德规范。这些应用切实保障了数字空间的交流安全与包容性。

衍生相关工作

基于该数据集衍生的经典研究包括多模态毒性检测框架的构建和跨语言偏见迁移分析。众多学者利用其标注体系开发了新型的对抗训练方法，如动态提示优化技术和基于强化学习的防御机制。这些工作不仅深化了对模型脆弱性的理解，还催生了如伦理红队测试等创新评估范式，持续推动着负责任人工智能研究的前沿发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集