shalanova/benchmark-2-chinese-gt
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/shalanova/benchmark-2-chinese-gt
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过Google Translate翻译成中文的,主要包含prompt-injection和典型的jailbreak-style指令,具有相对同质的攻击模式。数据集大小为1,000个提示,其中500个为安全提示,500个为不安全提示。数据集包含四个列:text(原始提示)、label(0表示安全,1表示不安全)、translation(通过Google Translate翻译成中文的提示)、score_zh_google(与codebook的余弦相似度得分)。更多详细信息可参考提供的论文链接。
This dataset is translated into Chinese by Google Translate, primarily containing prompt-injection and canonical jailbreak-style instructions with relatively homogeneous attack patterns. The dataset size is 1,000 prompts (500 safe / 500 unsafe). It includes four columns: `text` (original prompt), `label` (`0`: safe, `1`: unsafe), `translation` (prompt translated into Chinese by Google Translate), and `score_zh_google` (cosine similarity score with codebook). More information can be found in the provided paper link.
提供机构:
shalanova
搜集汇总
数据集介绍

构建方式
该数据集源自于xTRam1/safe-guard-prompt-injection英文语料库,经由Google Translate引擎翻译为中文而构建。原始语料涵盖提示注入与经典越狱指令,攻击模式相对同质。数据集包含1,000条提示,其中500条安全、500条不安全。每条样本保留原始文本、标签、中文翻译及与codebook嵌入的余弦相似度评分,为多维度分析提供支撑。
特点
benchmark-2-chinese-gt作为双语安全评测基准,其显著特点在于利用机器翻译技术将英文提示注入与越狱样本转化为中文,弥合了跨语言安全评估的数据鸿沟。数据集标签清晰二值化,且引入余弦相似度评分以量化翻译后语义的保真度,为研究者提供了衡量翻译对攻击性保持影响的客观指标。
使用方法
该数据集适用于中文环境下的大语言模型安全对齐效果评估,可直接用于提示注入与越狱攻击的鲁棒性测试。研究者可依据标签划分安全与不安全样本,计算模型在二进制分类任务中的准确率与F1分数。余弦相似度评分则能辅助分析翻译质量对检测性能的干扰,支持在论文中复现跨语言安全基准的构建流程。
背景与挑战
背景概述
随着大型语言模型在各类应用中的广泛部署,针对其的安全攻击日益凸显,其中提示注入与越狱攻击成为核心威胁。为应对这一挑战,研究人员致力于构建高质量的评估数据集。benchmark-2-chinese-gt数据集于近期由xTRam1团队创建,旨在评估中文环境下大语言模型对恶意指令的防御能力。该数据集基于原始英文安全防护提示注入语料库,通过Google翻译进行高质量中文转译,包含1000条精心标注的提示样本,其中安全与非安全指令各占500条。数据集附带余弦相似度评分,便于研究人员定量分析攻击模式。其研究聚焦于揭示中文场景下提示注入攻击的独特特征与防御瓶颈,为中文大语言模型的安全对齐研究提供了关键基准资源,在推动中文语言模型安全评估标准化方面具有重要影响。
当前挑战
该数据集构建与使用面临多重挑战。研究问题层面,中文提示注入攻击因语言表达灵活、语义模糊且文化背景复杂,导致传统基于关键词或规则的检测方法失效,亟需探索适应中文语法与语用特点的防御策略。构建过程中,依赖机器翻译可能引入语义偏差或误译,如俚语、双关语或文化特定表达难以准确转换,影响标签可靠性。此外,攻击模式相对单一,主要涵盖同质化的典型越狱指令,未能覆盖多轮对话、跨模态或上下文依赖等复杂攻击场景。数据规模有限且未公开验证集,限制了对模型泛化能力的全面评估。这些挑战凸显了开发高质量中文安全评估数据集的困难与紧迫性。
常用场景
经典使用场景
在大型语言模型的安全性与可靠性研究领域,benchmark-2-chinese-gt数据集作为首个专注于中文场景的提示注入与越狱攻击基准测试数据集,被广泛用于评估和提升模型对恶意指令的防御能力。该数据集包含500条安全样本与500条不安全样本,覆盖了典型的提示注入与规范越狱攻击模式,为研究者提供了标准化的测试工具,用以衡量模型在识别和拒绝对抗性输入时的鲁棒性,从而推动语言模型安全对齐研究的发展。
解决学术问题
该数据集针对大语言模型在中文语境下面对提示注入和越狱攻击时缺乏系统性评估基准的学术空白,提供了标准化标注的测试样本。它解决了两个核心问题:一是量化模型对恶意攻击的脆弱性,二是为防御策略的对比分析建立统一指标。通过支持余弦相似度评分等量化手段,该数据集促进了对抗性样本的检测与缓解方法研究,其影响在于为安全对齐算法的迭代提供了可靠的验证平台,增强了模型部署前的风险评估能力。
衍生相关工作
基于benchmark-2-chinese-gt数据集,衍生出多项经典研究工作,包括针对提示注入攻击的多语言防御策略对比分析、基于对抗训练的鲁棒性增强方法,以及结合语义相似度的动态检测框架。例如,相关论文利用该数据集的特征,提出利用嵌入空间距离进行攻击分类的算法,并验证了跨模型迁移性。此外,该数据集还启发了中文大模型安全基准的扩展,推动构建包含更多攻击变体与场景的测评工具集,成为该领域持续演进的重要起点。
以上内容由遇见数据集搜集并总结生成



