shalanova/benchmark-3-arabic-m2m
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/shalanova/benchmark-3-arabic-m2m
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由`facebook/m2m100_418M`模型翻译成阿拉伯语,源自`JailbreakBench/JBB-Behaviors`。领域包括异构的不安全类别(如有害指令、敏感话题、对抗性重述),使得基于相似性的检测更具挑战性。数据集包含200个提示(100个安全/100个不安全),列包括text(原始提示)、label(0:安全,1:不安全)、translation(由`facebook/m2m100_418M`翻译的阿拉伯语提示)和score_ar_model(与[codebook](https://huggingface.co/datasets/shalanova/codebook_embeddings)的余弦相似度分数)。
The dataset is translated into Arabic by the `facebook/m2m100_418M` model and sourced from `JailbreakBench/JBB-Behaviors`. The domain includes heterogeneous unsafe categories (e.g., harmful instructions, sensitive topics, adversarial rephrasings), making similarity-based detection more challenging. The dataset contains 200 prompts (100 safe / 100 unsafe), with columns including text (original prompt), label (0: safe, 1: unsafe), translation (prompt in Arabic translated by `facebook/m2m100_418M`), and score_ar_model (cosine similarity score with [codebook](https://huggingface.co/datasets/shalanova/codebook_embeddings)).
提供机构:
shalanova
搜集汇总
数据集介绍

构建方式
该数据集基于JailbreakBench社区发布的JBB-Behaviors语料库构建,涵盖了异构的不安全类别,包括有害指令、敏感话题及对抗性改写提示,旨在模拟真实世界中多样化的越狱攻击模式。原始提示文本经由Facebook的m2m100_418M多语言翻译模型自动转换为阿拉伯语,从而构建出规模为200条提示(100条安全与100条不安全)的跨语言基准测试集。每条数据均保留原始文本、安全标签、阿拉伯语译文及基于码本嵌入的余弦相似度评分,确保了数据结构的完整性。
特点
该数据集的核心特征在于其高度的异质性与分布变异性。与依赖固定越狱模板的常规基准不同,本数据集引入了非典型提示模式,使得基于相似性的检测算法面临更大挑战,从而为跨语言安全性评估提供了严苛的测试环境。此外,通过阿拉伯语翻译,数据集实现了对低资源语言场景的覆盖,有效检验了多语言模型在抵御越狱攻击时的泛化能力与鲁棒性。
使用方法
该数据集主要用于跨语言安全对齐领域的模型评估与检测方法验证。研究者可直接加载数据集的'text'与'translation'字段,利用安全分类器对原始英文及阿拉伯语译本的标签进行预测,计算准确率、F1分数等指标以衡量模型的越狱检测性能。亦可使用'label'字段训练监督式探测模型,或借助'score_ar_model'评分分析嵌入空间中的安全边界变化,从而深入探究多语言模型在跨语境下的风险感知差异。
背景与挑战
背景概述
在大规模语言模型安全对齐研究的浪潮中,多语言越狱检测成为一项关键议题。该数据集由研究团队于2025年创建,基于JailbreakBench的JBB-Behaviors源数据,借助facebook/m2m100_418M模型翻译为阿拉伯语,旨在系统评估跨语言场景下安全检测机制的鲁棒性。其核心研究问题聚焦于异构不安全类别(如有害指令、敏感话题、对抗性改写)在阿拉伯语环境中的可迁移性,并通过200条精心构建的提示(含100条安全与100条不安全样本)检验基于相似度的检测方法在分布多样性下的表现。该数据集为跨语言安全对齐研究提供了标准化压力测试基准,对推动多语言模型安全防护策略的发展具有重要价值。
当前挑战
该数据集面临的核心领域挑战在于跨语言场景下越狱检测的复杂性:由于不安全指令在阿拉伯语中可能借助文化语境或语义歧义掩盖恶意意图,传统基于英文模板的相似度检测方法难以有效泛化。此外,构建过程中的挑战尤为突出:翻译模型m2m100_418M可能引入语义漂移或文化偏差,导致原始危害性在翻译后减弱或变异;同时,来自异构不安全类别的提示分布高度不均衡,使得标注一致性难以保证,且基于余弦相似度的单一指标不足以捕捉跨语言威胁的多样性,这些因素共同加大了数据集的构建难度与评估可靠性风险。
常用场景
经典使用场景
在跨语言安全对齐与有害内容检测的研究中,该数据集以一种精心设计的双语结构,为评估大语言模型在阿拉伯语场景下的安全表现提供了核心评测基准。其包含的200条提示语横跨安全与不安全两类标签,并通过机器翻译引入阿拉伯语版本,使得主流基于语义相似度的防御机制在面对低资源语言时面临新的挑战。研究者可借助该数据集测试模型对越狱攻击的鲁棒性,尤其聚焦于跨语言情境下的零样本迁移能力与安全对齐的有效性。
实际应用
在实际部署中,该数据集为构建全球化、多语言内容审核系统提供了关键的评估工具。阿拉伯语作为全球广泛使用的语言之一,常涉及敏感话题且容易成为潜在恶意利用的载体。通过该数据集中的安全/不安全双语样本,企业可在产品上线前检验其模型是否能够稳定过滤有害内容,并协助调整跨语言嵌入策略以提升低资源语言的检测精度,最终保障社交媒体、智能客服等真实场景下的用户安全与合规运行。
衍生相关工作
基于该数据集,衍生工作已在跨语言安全特征聚合与对抗性共嵌入优化领域展开探索。研究者利用其包含的余弦相似度得分与原文本、译文的对应关系,设计出面向多语言越狱检测的联合码本方法,极大提升了异构语言空间的攻击识别率。紧随该数据集采用的双语对齐架构,后续工作进一步提出了语言自适应安全微调与跨语言对比学习范式,为低资源语言的防御机制开辟了新方向,并启发了相关领域的统一安全评测标准制定。
以上内容由遇见数据集搜集并总结生成



