five

Korean_Euphemistic_Coating

收藏
Hugging Face2025-10-24 更新2025-10-25 收录
下载链接:
https://huggingface.co/datasets/Genticca/Korean_Euphemistic_Coating
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是由原始英文walledai/AdvBench数据集通过DeepL API翻译成韩文而构建的。它包括两种数据配置:Coating_Data和Non_Coating_Data。Coating_Data是通过算法应用‘委婉语’(掩饰性语言)生成的有害提示,而Non_Coating_Data则是直接从原始数据翻译而来,没有进行额外修改。
创建时间:
2025-10-20
原始信息汇总

Korean_Euphemistic_Coating数据集概述

数据集基本信息

  • 许可证: MIT
  • 来源: 基于walledai/AdvBench数据集通过DeepL API翻译构建的韩语数据集

数据配置

Coating_Data

  • 通过算法应用"涂层"(委婉语)生成的有害提示
  • 数据文件:Coating_Data/Coating_Data.parquet

Non_Coating_Data

  • 直接从原始数据翻译而来且未经过额外修改的有害提示
  • 数据文件:Non_Coating_Data/Non_Coating_Data.parquet

攻击成功率对比

模型 英语(原始) 韩语(无涂层) 韩语(涂层)
DeepSeek-R1-7B 91.7 44.8 40.4
Hermes-3-8B 97.1 82.5 89.6
Llama-3.1-Tulu-8B 79.0 50.2 71.5
Ministral-8B 96.7 61.4 92.9
OpenThinker-7B 96.0 71.0 67.3
Qwen2.5-7B 81.3 17.3 61.0
Qwen2.5-Math-7B 76.9 1.9 0.8
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理安全研究领域,Korean_Euphemistic_Coating数据集的构建采用了系统化的跨语言转换方法。该数据集基于原始AdvBench数据集,通过DeepL API将其内容精确翻译为韩语版本。构建过程特别设计了两种不同的数据处理策略:涂层数据通过算法对有害提示进行委婉化语言处理,而非涂层数据则保持原始内容的直接翻译,未作额外修饰。这种双重构建机制为研究委婉表达对模型安全性的影响提供了对比基础。
特点
该数据集的核心特征在于其独特的双语对照结构和委婉化处理机制。数据集中包含经过算法处理的委婉化有害提示与直接翻译的原始提示,形成了鲜明的对比研究材料。从攻击成功率统计可见,涂层数据在多个大语言模型上展现出与原始英文数据相近的攻击效果,特别是在Hermes-3-8B和Ministral-8B等模型上,涂层数据的攻击成功率显著高于非涂层数据,这揭示了委婉表达可能绕过模型安全机制的重要现象。
使用方法
研究人员可通过HuggingFace平台直接加载该数据集的两种配置,分别对应涂层数据与非涂层数据。使用时应首先导入相应的数据配置文件,通过指定config_name参数选择需要的数据类型。该数据集主要应用于大语言模型安全性的评估研究,特别是针对跨语言攻击和委婉表达绕过机制的分析。研究者可以基于该数据集测试不同模型对韩语委婉化有害提示的识别能力,为开发更鲁棒的安全防护系统提供实证依据。
背景与挑战
背景概述
在人工智能安全研究领域,对抗性攻击检测已成为保障大语言模型安全部署的关键课题。Korean_Euphemistic_Coating数据集基于walledai/AdvBench原始数据集构建,通过DeepL API将其翻译为韩语版本,主要面向韩语环境下的大语言模型安全评估。该数据集由研究团队在推进多语言模型安全测试的背景下创建,核心目标在于探究委婉表达对模型安全机制的影响,通过对比涂层与非涂层提示的攻击成功率,为跨语言模型安全研究提供重要实证基础。
当前挑战
该数据集致力于解决韩语大语言模型在面对委婉表达攻击时的安全防护挑战,具体体现为模型对经过语言修饰的有害指令识别能力下降。在构建过程中,研究人员面临双重技术难题:其一是保持原始有害意图在跨语言翻译中的语义一致性,确保韩语版本与英文原版具有等效的攻击效力;其二是设计有效的委婉表达转换算法,需在保持自然语言流畅度的同时实现攻击意图的隐蔽性转换,这对语言模型的语义理解与生成技术提出了较高要求。
常用场景
经典使用场景
在自然语言处理安全研究领域,Korean_Euphemistic_Coating数据集主要应用于评估大语言模型对委婉表达攻击的防御能力。该数据集通过对比原始英文提示词与经过委婉化处理的韩语版本,为研究人员提供了分析跨语言安全漏洞的基准工具。在模型鲁棒性测试中,研究者能够系统评估不同架构的大语言模型在面对语义转换攻击时的表现差异,这为开发更安全的对话系统奠定了实验基础。
衍生相关工作
基于该数据集的研究催生了多项重要的学术成果,特别是在多语言对抗攻击防御领域。研究人员开发了针对委婉表达攻击的检测算法,提出了跨语言安全迁移学习框架。这些工作显著提升了模型对语义转换攻击的鲁棒性,推动了安全对齐技术的发展。同时,该数据集也促进了多语言安全评估标准的建立,为后续的大规模多语言安全基准研究提供了重要参考。
数据集最近研究
最新研究方向
在自然语言安全领域,委婉表达对大型语言模型的对抗性攻击正成为前沿研究方向。Korean_Euphemistic_Coating数据集通过算法生成韩语委婉表达的有害指令,揭示了语言本地化对模型安全性的深远影响。实验数据表明,经过委婉化处理的攻击指令在多数模型中显著提升了攻击成功率,例如Ministral-8B模型的攻击成功率从61.4%跃升至92.9%。这一现象凸显了跨语言安全评估的重要性,推动研究者开发更具语言适应性的防御机制。当前研究热点集中于多语言对抗样本的生成与检测,以及文化语境对模型安全边界的影响,为构建全球化AI安全体系提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作