ArabGuard-Egyptian-V1
收藏Hugging Face2026-02-12 更新2026-02-13 收录
下载链接:
https://huggingface.co/datasets/d12o6aa/ArabGuard-Egyptian-V1
下载链接
链接失效反馈官方服务:
资源简介:
ArabGuard-v1 是一个专门设计的手动标注基准数据集,旨在评估和增强大型语言模型(LLMs)在应对提示注入(Prompt Injection)和越狱(Jailbreaking)攻击时的鲁棒性,特别关注埃及方言和法式阿拉伯语(Franco-Arabic)。该数据集包含 2,321 个独特的对抗性提示样本,涵盖了社会工程、角色扮演和复杂逻辑操纵(包括心理操控)等多种攻击方式。数据集经过严格去重(移除 715 个重复样本)并采用分层分割以确保标签分布的一致性。样本标注包括文本内容、攻击类型(如心理操控陷阱、提示泄露、逆向心理学等)、方言类型(埃及俚语、法式阿拉伯语、标准阿拉伯语混合等)、意图目标(如数据窃取、操纵等)以及二元标签(1:恶意,0:安全)。数据集适用于文本分类任务,特别针对网络安全和模型安全领域的研究与应用。
ArabGuard-v1 is a manually annotated benchmark dataset specifically designed to evaluate and enhance the robustness of Large Language Models (LLMs) against Prompt Injection and Jailbreaking attacks, with a particular focus on Egyptian Arabic dialect and Franco-Arabic. This dataset contains 2,321 unique adversarial prompt samples covering various attack types including social engineering, role-playing, and complex logical manipulation (including psychological manipulation). The dataset has undergone strict deduplication (with 715 duplicate samples removed) and employs stratified splitting to ensure consistent label distribution. Sample annotations include text content, attack categories (such as psychological manipulation traps, prompt leakage, reverse psychology, etc.), dialect types (such as Egyptian colloquialism, Franco-Arabic, mixed Standard Arabic, etc.), intended targets (such as data exfiltration, manipulation, etc.), and binary labels (1: malicious, 0: safe). This dataset is suitable for text classification tasks, particularly for research and applications in the fields of cybersecurity and model security.
创建时间:
2026-02-04
原始信息汇总
ArabGuard-v1 数据集概述
数据集基本信息
- 数据集名称: ArabGuard-v1 (ArabGuard-Egyptian-V1)
- 许可协议: Apache License 2.0
- 任务类别: 文本分类
- 支持语言: 阿拉伯语 (ar)、英语 (en)
- 数据规模: 1K-10K
- 标签: 安全性、提示注入、埃及方言、网络安全、越狱
数据集简介
ArabGuard-v1 是一个专门设计、手动整理的基准数据集,旨在评估和增强大型语言模型针对提示注入和越狱攻击的鲁棒性,特别关注埃及方言和法式阿拉伯语。该数据集旨在弥补全球安全护栏在面对本地文化细微差别、俚语或语码转换时可能存在的“语言盲点”。
数据集内容与统计
- 总样本量: 2,321 个唯一样本(已移除 715 个重复项)。
- 数据划分: 采用分层划分以确保各集合间标签分布一致。
- 训练集: 1,856 个样本(恶意样本约 1,014 个,良性样本约 842 个)。
- 验证集: 232 个样本(恶意样本约 127 个,良性样本约 105 个)。
- 测试集: 233 个样本(恶意样本约 127 个,良性样本约 106 个)。
- 标签分布: 恶意样本 1,268 个,良性样本 1,053 个。
攻击分类学
数据集涵盖了针对中东和北非地区定制的复杂攻击向量:
- 语言混淆: 有效载荷分割(例如,ت-ج-ا-ه-ل)和法式阿拉伯语。
- 煤气灯陷阱: 重复纠正和负向强化以迫使模型服从。
- 社会工程: 利用本地习语和权威冒充。
- 困难负样本: 良性技术查询(例如,“如何防止 SQL 注入”)以最小化过度拒绝。
数据结构
数据集包含以下字段:
text: 原始输入提示。attack_type: 攻击类别(例如,gaslighting_trap、prompt_leaking、reverse_psychology)。dialect: 语言风格(egyptian_slang、franco、msa_mixed)。intent_goal: 最终目标(例如,exfiltration、manipulation)。label: 二进制标签(1: 恶意,0: 安全)。
使用方法
使用 datasets 库加载该数据集:
python
from datasets import load_dataset
dataset = load_dataset("d12o6aa/ArabGuard-Egyptian-V1")
搜集汇总
数据集介绍

构建方式
在人工智能安全领域,针对大型语言模型的对抗性攻击日益复杂,尤其是涉及方言和文化特定表达的场景。ArabGuard-v1数据集的构建采用了人工精心策划的方法,专注于埃及方言和法式阿拉伯语环境下的提示注入与越狱攻击。通过社会工程、角色扮演及复杂逻辑操纵(包括煤气灯效应)等手段,研究团队收集并筛选了2,321个独特样本,并移除了715个重复项,以确保数据的纯净性和代表性。数据集采用分层分割策略进行划分,保证了训练集、验证集和测试集中恶意与良性标签分布的一致性,从而为模型鲁棒性评估提供了可靠基础。
特点
该数据集的核心特点在于其针对中东与北非地区文化语境的深度适配,涵盖了多种高级攻击向量。它通过语言混淆技术,如负载分割和法式阿拉伯语变体,模拟真实世界中的对抗性输入。煤气灯陷阱和社会工程攻击则利用本地习语和权威模仿,增强了攻击的隐蔽性和复杂性。此外,数据集还包含硬负样本,例如关于技术安全的良性查询,以减少模型过度拒绝的倾向,提升评估的精准度。这些特征共同构成了一个多层次、高保真的安全基准,有效弥补了全球安全护栏在方言和文化细微差别上的盲点。
使用方法
使用ArabGuard-v1数据集时,研究人员可通过Hugging Face的datasets库便捷加载,以进行大型语言模型的安全性能评估与增强。该数据集适用于文本分类任务,支持对恶意与良性提示的二元标签预测。用户可依据攻击类型、方言风格和意图目标等结构化字段,深入分析模型在不同对抗场景下的表现。通过训练集优化模型参数,并利用验证集和测试集进行鲁棒性验证,能够有效提升模型在埃及方言环境下的安全防护能力,为跨文化人工智能安全研究提供实证支持。
背景与挑战
背景概述
随着大型语言模型(LLM)在全球范围内的广泛应用,其安全性问题日益凸显,特别是在面对多语言和文化特定语境时,模型往往存在显著的“语言盲区”。在此背景下,ArabGuard-Egyptian-V1数据集应运而生,由研究团队于近期创建,专注于评估和增强LLM在埃及方言和法式阿拉伯语环境下对抗提示注入与越狱攻击的鲁棒性。该数据集通过精心设计的对抗性提示,深入挖掘了中东与北非地区的文化细微差别、俚语及语码转换现象,旨在填补现有安全护栏在本地化语境中的不足,为提升模型在复杂社会工程攻击下的防御能力提供了关键资源。
当前挑战
ArabGuard-Egyptian-V1数据集致力于解决LLM安全领域中的本地化对抗攻击检测挑战,具体包括识别埃及方言和法式阿拉伯语中的提示注入与越狱行为,这些攻击常利用语言模糊性、社会工程策略及逻辑操纵手段,对模型的鲁棒性构成严峻考验。在构建过程中,研究团队面临多重挑战:首先,需克服埃及方言的多样性和非标准化特性,确保数据在文化语境中的准确性与代表性;其次,对抗性样本的设计需平衡攻击的复杂性与真实性,避免引入偏见或过度拒绝;此外,数据去重与分层分割也要求精细处理,以维持标签分布的均衡性,从而保障评估的公正性与有效性。
常用场景
经典使用场景
在大型语言模型安全评估领域,ArabGuard-v1数据集为研究者提供了一个关键基准,专门用于测试模型在埃及方言和法式阿拉伯语环境下的对抗性鲁棒性。该数据集通过精心设计的恶意提示,模拟了社会工程、角色扮演及逻辑操纵等攻击手法,使得研究人员能够系统性地评估模型对提示注入和越狱攻击的防御能力,从而揭示模型在非标准语言变体中的安全漏洞。
解决学术问题
该数据集直接针对自然语言处理安全研究中的语言盲点问题,即全球安全护栏在面对本地文化细微差别、俚语或语码转换时往往失效。通过提供2,321个独特的对抗性样本,ArabGuard-v1帮助学术界深入探究模型在方言和混合语言环境下的脆弱性,推动了跨语言安全评估方法的发展,并为构建更具包容性和鲁棒性的安全机制提供了实证基础。
衍生相关工作
基于ArabGuard-v1,学术界衍生了一系列重要研究,例如针对方言对抗性攻击的检测模型优化、跨语言安全护栏的迁移学习框架,以及基于社会工程攻击的防御策略分析。这些工作不仅扩展了多语言安全评估的边界,还促进了如Gaslighting陷阱和语言混淆等新型攻击向量的理论探索,为后续的方言安全数据集构建提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



