shalanova/benchmark-4-russian-m2m

Name: shalanova/benchmark-4-russian-m2m
Creator: shalanova
Published: 2026-04-30 04:31:57
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/shalanova/benchmark-4-russian-m2m

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从nvidia/Aegis-AI-Content-Safety-Dataset-2.0翻译而来，翻译语言为俄语，使用的模型是facebook/m2m100_418M。数据集领域涉及异构不安全类别（如有害指令、敏感话题、对抗性改写），包含不一定遵循典型越狱模板的提示。这种增加的多样性和分布变异性使得基于相似性的检测更具挑战性，并为跨语言迁移提供了压力测试。数据集大小为1,000个提示（500个安全/500个不安全），包含四个列：text（原始提示）、label（0表示安全，1表示不安全）、translation（俄语翻译的提示）和score_ru_model（与codebook的余弦相似度得分）。

Translated on Russian by facebook/m2m100_418M model. Source: nvidia/Aegis-AI-Content-Safety-Dataset-2.0. Domain: include heterogeneous unsafe categories (e.g., harmful instructions, sensitive topics, adversarial rephrasings) and contain prompts that do not necessarily follow canonical jailbreak templates. This increased diversity and distributional variability makes similarity-based detection more challenging and provides a stress-test for cross-lingual transfer. Size: 1,000 prompts (500 safe / 500 unsafe). Columns: text - original prompt, label - 0: safe, 1: unsafe, translation - prompt on Russian translated by facebook/m2m100_418M, score_ru_model - cosine similarity score with codebook.

提供机构：

shalanova

搜集汇总

数据集介绍

构建方式

该数据集基于英伟达旗下Aegis-AI-Content-Safety-Dataset-2.0源数据集构建，涵盖有害指令、敏感主题、对抗性改写等多类异构不安全类别，并包含非典型越狱模板的提示。为评估多语言安全对齐性能，研究者利用facebook/m2m100_418M翻译模型将1000条原始提示（平衡分布为500条安全与500条不安全样本）转化为俄语版本，从而生成本数据集。

特点

数据集以跨语言安全检测为核心挑战，其多样性显著提升了基于相似度的检测难度。除原始的文本与标签字段外，还提供俄语翻译文本，以及通过预计算码本获得的余弦相似度分数，便于直接评估模型在俄语场景下的安全性表现。该构成能够有效压力测试跨语言迁移能力。

使用方法

用户可加载数据集的'text'字段用于原始提示分析，或采用'translation'字段进行俄语安全分类实验。借助'score_ru_model'相似度分数，可复现论文中的嵌入空间度量方法，或基于'label'字段训练自定义分类器。结合HuggingFace Datasets库，支持灵活的过滤与批处理操作，适配零样本与少样本学习场景。

背景与挑战

背景概述

该数据集名为benchmark-4-russian-m2m，创建于2025年，源自NVIDIA发布的Aegis-AI-Content-Safety-Dataset-2.0，由研究团队通过多语言翻译模型facebook/m2m100_418M将其转化为俄语版本。核心研究问题聚焦于评估和增强人工智能内容安全检测系统在俄语场景下的鲁棒性，特别是在面对多样性不安全类别（如有害指令、敏感话题、对抗性改写）时。该数据集包含1000条提示（500条安全，500条不安全），为跨语言迁移学习提供了压力测试，对研究多语言内容安全领域具有重要推动作用。

当前挑战

该数据集所解决的领域问题在于，现有内容安全检测系统多基于英语构建，难以应对俄语等低资源语言的多样化不安全提示，包括非典型越狱模板和分布变异性。构建过程中的挑战包括：依赖机器翻译模型生成俄语文本可能引入语义偏差或翻译失真，导致跨语言对齐困难；同时，需确保翻译后的提示仍保留原始语境中的安全隐患或无害特征，避免标签漂移。此外，如何通过相似性检测方法有效应对类别异质性和分布波动，成为评估跨语言迁移性能的关键难点。

常用场景

经典使用场景

该数据集专为跨语言内容安全检测而设计，其核心应用场景在于评估和提升多语言环境下AI系统对不安全内容的识别能力。通过提供1000条俄语翻译后的提示（prompts），其中包含500条安全与500条不安全样本，数据集涵盖了有害指令、敏感话题及对抗性改写等多种异构不安全类别，从而为跨语言安全模型的鲁棒性测试提供了标准化基准。研究者常借助该数据集验证机器翻译模型（如m2m100）在迁移学习中的表现，或对比安全分类器在原始语言与翻译语言间的性能差异，进而推动多语言安全对齐技术的进步。

衍生相关工作

该数据集衍生的相关工作主要围绕跨语言安全表示学习与对抗性防御展开。研究者基于其异构样本分布，提出了若干改进型的嵌入对齐方法，如结合对比学习的跨语言codebook机制，用于增强对翻译后不安全内容的语义捕获。同时，以该数据集为评测基准的论文（如arXiv:2604.25716）探索了翻译模型与安全分类器的级联缺陷，进而催生出联合微调策略与动态模板生成技术。此外，受其“压力测试”思想的启发，后续工作将分布偏移分析扩展至阿拉伯语、中文等低资源语言，形成了系统性评估多语言安全泛化能力的标准化框架，推动了诸如ToxiGen-CL、Safety-Polyglot等延伸数据集的出现。

数据集最近研究