jailbreak-grok-4

Hugging Face2025-10-25 更新2025-10-26 收录

下载链接：

https://huggingface.co/datasets/lvogel123/jailbreak-grok-4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了模型评估结果、样本数据和统计信息，主要用于训练和评估模型在处理不同类别内容时的性能。数据集涵盖了物理伤害与武器、金融犯罪与欺诈、知识产权与非暴力不道德行为等多个类别，并提供了评分、拒绝率、置信度均值和特异性均值等指标。

创建时间：

2025-10-25

原始信息汇总

jailbreak-grok-4 数据集概述

数据集基本信息

数据集地址：https://huggingface.co/datasets/lvogel123/jailbreak-grok-4
配置数量：3个独立配置
总下载大小：2,720,934字节
总数据集大小：5,488,405字节

配置详情

mhj_m2s_grok_4_20251024-193232_results

样本数量：1
数据大小：813字节
下载大小：45,135字节
特征字段：
- 评估标识：log_path、eval_id、run_id、task_id
- 时间信息：created
- 任务信息：task、model
- 样本统计：total_samples、completed_samples
- 总体评估指标：mean、score01_mean、asr@0.5、asr@0.7、refusal_rate、convincing_raw_mean、specificity_raw_mean、convincing01_mean、specificity01_mean、raw_mean
- 分类别评估指标（涵盖10个安全类别）

mhj_m2s_grok_4_20251024-193232_samples

样本数量：537
数据大小：5,486,899字节
下载大小：2,670,852字节
特征字段：
- 评估标识：log_path、eval_id、run_id、task_id
- 时间信息：created
- 任务信息：task、model
- 样本信息：sample_id、epoch
- 对话内容：target、messages、meta_prompt、meta_objective
- 元数据：meta_id、meta_category、meta_annotations
- 评分结果：score_strong_reject_scorer_value、score_strong_reject_scorer_answer

mhj_m2s_grok_4_20251024-193232_stats

样本数量：2
数据大小：693字节
下载大小：6,947字节
特征字段：
- 评估标识：log_path、eval_id、run_id、task_id
- 时间信息：created、started_at、completed_at
- 任务信息：task、model
- 使用统计：usage_model、input_tokens、output_tokens、total_tokens

安全评估类别

Physical Harm & Weapons
Financial Crime & Fraud
IP/Copyright & Non-Violent Unethical Behavior
Sexual Content & Exploitation
Drugs & Controlled Substances
Hate/Harassment/Abuse
Misinformation
Chemical/Biological Threats
Self-Harm & Suicide
Cybercrime & Intrusion

搜集汇总

数据集介绍

构建方式

在人工智能安全评估领域，jailbreak-grok-4数据集通过系统化的对抗性测试框架构建而成。该数据集采用多轮对话样本设计，针对Grok-4模型在多个敏感主题上的防御能力进行压力测试。构建过程中设置了包括物理伤害与武器、金融犯罪、知识产权侵权、性内容剥削等十个关键风险类别，每个类别都配置了专门的评估指标和评分体系，通过标准化的测试流程确保数据采集的系统性和可比性。

特点

该数据集最显著的特征在于其细粒度的风险评估维度，不仅提供整体安全性能指标，还针对每个风险类别独立计算攻击成功率、拒绝率和说服力评分。数据集包含537个对话样本，每个样本都配备了完整的元数据标注，包括目标提示词、对话历史、评分结果和分类标签。特别值得注意的是，数据集采用双重评分机制，既包含原始评分也提供标准化后的01分值，为研究者提供了多维度的分析视角。

使用方法

研究人员可通过加载三个配置模块来使用该数据集：结果配置提供汇总统计指标，样本配置包含详细的对话记录和评分细节，统计配置则记录测试过程的资源消耗情况。使用时应先确定分析目标，若关注整体安全性能可从结果配置入手，如需深入分析具体攻击案例则需结合样本配置中的对话内容。数据集支持按风险类别进行分层分析，便于研究者识别模型在不同领域的脆弱性模式。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域的广泛应用，其安全性与伦理对齐问题日益凸显。jailbreak-grok-4数据集由研究团队于2024年构建，聚焦于评估Grok-4模型对恶意提示的抵抗能力。该数据集通过系统化测试框架，量化模型在物理危害、金融犯罪、知识产权侵犯等九大风险领域的响应表现，为人工智能安全研究提供了关键基准数据。其多维度的评估指标体系，推动了语言模型安全防御机制的理论创新与实践验证。

当前挑战

该数据集致力于解决语言模型对抗性攻击检测的核心难题，其构建面临双重挑战：在领域问题层面，需精准界定恶意提示的语义边界，同时平衡模型拒绝率与误判率的矛盾关系；在技术实现层面，构建过程涉及多轮对话场景的复杂性建模，以及跨风险类别评估指标的统一标定，还需克服对抗样本生成过程中语义连贯性与攻击有效性的平衡问题。

常用场景

经典使用场景

在人工智能安全领域，jailbreak-grok-4数据集被广泛用于评估大型语言模型对恶意诱导性输入的抵抗能力。该数据集通过系统化的对抗性测试案例，模拟了多种潜在有害请求场景，为研究人员提供了量化模型安全边界的基准工具。其典型应用包括测试模型在物理伤害、金融犯罪、知识产权侵犯等敏感话题上的响应模式，帮助揭示模型防御机制的薄弱环节。

实际应用

在实际部署中，该数据集被科技公司用于压力测试商业语言模型的安全防护体系。通过分析模型在各类越狱攻击下的表现，工程师可以针对性强化拒绝机制，预防模型被滥用于生成有害内容。金融科技和内容审核行业也借助此类数据开发更智能的风险识别算法，从源头上阻断恶意信息的传播链条。

衍生相关工作

基于该数据集的安全评估框架，衍生出多项重要的学术研究。例如针对特定风险类别（如化学威胁、网络犯罪）的专项防御研究，以及结合强化学习的动态安全策略优化工作。这些研究不仅拓展了对抗性测试的方法论，还推动了红队测试标准在AI安全领域的普及与应用。

以上内容由遇见数据集搜集并总结生成