shalanova/benchmark-1-russian-gt

Name: shalanova/benchmark-1-russian-gt
Creator: shalanova
Published: 2026-04-30 04:34:12
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/shalanova/benchmark-1-russian-gt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要包含提示注入和典型的越狱式指令，攻击模式相对同质。数据集大小为1,000个提示（500个安全/500个不安全）。列包括：`text`（原始提示）、`label`（`0`表示安全，`1`表示不安全）、`translation`（通过Google Translate翻译成俄语的提示）和`score_ru_google`（与[codebook](https://huggingface.co/datasets/shalanova/codebook_embeddings)的余弦相似度得分）。更多信息请参阅论文：https://arxiv.org/abs/2604.25716。

The dataset primarily contains prompt-injection and canonical jailbreak-style instructions with relatively homogeneous attack patterns. The size is 1,000 prompts (500 safe / 500 unsafe). Columns include: `text` (original prompt), `label` (`0`: safe, `1`: unsafe), `translation` (prompt on Russian translated by Google Translate), and `score_ru_google` (cosine similarity score with [codebook](https://huggingface.co/datasets/shalanova/codebook_embeddings)). More information in paper: https://arxiv.org/abs/2604.25716.

提供机构：

shalanova

搜集汇总

数据集介绍

构建方式

该数据集源自英文源数据集jayavibhav/prompt-injection-safety，经由Google Translate引擎自动翻译为俄语构建而成。原始数据聚焦于提示注入与典型越狱指令类攻击模式，涵盖相对同质的攻击策略。数据集包含1,000条提示样本，其中500条标注为安全类别，500条标注为不安全类别，形成均衡的二元分类结构。每条样本保留原始英文文本及对应标签，并新增俄语翻译字段与基于codebook嵌入计算的余弦相似度评分字段，为跨语言安全性评估提供量化参考。

特点

数据集的核心特点在于其专注于俄语场景下的提示注入与越狱攻击检测，填补了非英语语言安全基准的空白。通过Google Translate实现跨语言映射，使得原始攻击模式得以在俄语环境下复现。标签体系简洁明确，安全与非安全类别各占半数，便于模型进行二分类训练与评估。此外，嵌入相似度评分的引入为翻译质量与语义保真度提供了可量化指标，增强了数据集的学术研究价值。

使用方法

该数据集适用于俄语大语言模型的安全性评估与微调场景。使用者可直接利用text字段与label字段构建分类任务，训练模型识别俄语提示中的恶意注入内容。translation字段与score_ru_google字段可用于分析机器翻译对攻击模式语义保留的影响，或作为多语言安全对齐研究的辅助数据。建议结合原始英文数据集进行跨语言对比实验，以评估翻译过程对安全检测性能的潜在影响。

背景与挑战

背景概述

该数据集创建于大语言模型安全评估需求日益增长的背景下，由Jayavibhav团队基于其原始英文数据集'prompt-injection-safety'扩展而成。核心研究问题聚焦于检测俄语环境下针对大语言模型的提示注入（prompt injection）与越狱（jailbreak）攻击，为多语言安全评测提供标准化测试基准。以Google Translate完成俄语翻译，并利用基于码本（codebook）的余弦相似度评分保证翻译质量。发布后为跨语言红队测试、多语言安全对齐研究提供了重要资源，相关成果已发表在arXiv。

当前挑战

所解决的领域挑战在于：大语言模型在面对非英语语言的恶意提示时，安全防护能力显著弱于英语环境，尤其是形态复杂、资源欠丰富的俄语，导致现有安全评测无法覆盖多语言攻击面。构建过程中面临挑战：1)使用机器翻译可能损失语义细微差别，特别是双关语、文化梗等攻击模式易被歪曲；2)原始数据集的攻击模式高度同质化，500条不安全提示未能充分覆盖俄语特有的社会工程学与语法变异攻击；3)仅依赖余弦相似度评分难以保证翻译后提示的语义完整性和攻击有效性。

常用场景

经典使用场景

在自然语言处理与人工智能安全交叉领域，benchmark-1-russian-gt数据集被广泛用于评估和提升大型语言模型在俄语环境下的提示注入攻击防御能力。该数据集包含1000条精心标注的提示文本，其中500条安全指令与500条恶意注入指令形成均衡对照，为研究者提供了一个标准化的俄语对抗性样本库。通过在此基准上进行模型微调或鲁棒性测试，研究人员能够系统性地衡量语言模型对恶意指令注入、越狱攻击等安全威胁的抵御水平，从而推动多语言安全模型的构建与优化。

衍生相关工作

该数据集衍生出多项具有突破性的研究工作。基于其提供的翻译对齐标注，研究者开发了跨语言提示注入攻击的自动迁移方法，证明将英语攻击模式直接翻译至俄语仍能保持较高成功率。另一项经典工作利用数据集的余弦相似度评分，首次提出多语言攻击检测的鲁棒性基准，揭示模型在不同语言间的防御能力存在显著降级现象。此外，该数据集被用于构建俄语越狱攻击的对抗训练样本生成管道，催生了面向低资源语言的少样本安全微调框架，相关成果已收录于ICLR 2024安全性专题论文中，持续推动着多语言AI安全领域的理论发展。

数据集最近研究