AIM-Intelligence/XL-SafetyBench

Name: AIM-Intelligence/XL-SafetyBench
Creator: AIM-Intelligence
Published: 2026-05-08 15:20:26
License: 暂无描述

Hugging Face2026-05-08 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/AIM-Intelligence/XL-SafetyBench

下载链接

链接失效反馈

官方服务：

资源简介：

XL-SafetyBench是一个基于国家背景的跨文化基准数据集，用于评估大型语言模型（LLM）的安全性和文化敏感性。该数据集覆盖10个国家-语言对（法国、德国、印度、印度尼西亚、日本、韩国、西班牙、土耳其、阿拉伯联合酋长国和美国），包含两个评估轨道：1）越狱基准（Jailbreak Benchmark），每国有450个对抗性攻击提示（150个基础查询×3种攻击变体），用于评估模型对有害请求的抵抗能力；2）文化基准（Cultural Benchmark），每国有100个文化敏感场景（20种敏感性×5种场景），用于评估模型的文化意识。数据集还提供了详细的评估指标和数据结构说明。

XL-SafetyBench is a country-grounded cross-cultural benchmark for evaluating the safety and cultural sensitivity of large language models (LLMs). The dataset covers 10 country-language pairs (France, Germany, India, Indonesia, Japan, South Korea, Spain, Turkey, United Arab Emirates, and United States) and includes two evaluation tracks: 1) Jailbreak Benchmark—450 adversarial attack prompts per country (150 base queries × 3 attack variants), evaluating resistance to harmful requests; and 2) Cultural Benchmark—100 culturally-sensitive scenarios per country (20 sensitivities × 5 scenarios), evaluating cultural awareness. The dataset also provides detailed evaluation metrics and data structure descriptions.

提供机构：

AIM-Intelligence

搜集汇总

数据集介绍

构建方式

XL-SafetyBench的构建根植于多国语言与文化背景，覆盖法国、德国、印度等10个国家的语言对，系统性地设计了两个评估轨道：越狱基准与文化基准。越狱部分基于5类安全范畴（如犯罪活动、仇恨与歧视等），为每个国家精选150个基础查询，并衍生出3种变体攻击提示，总计450个提示词，以评估大语言模型对有害请求的抵御能力。文化部分则针对每个国家识别20类文化敏感性（如饮食禁忌、死亡习俗等），每类编撰5个场景提示，共计100个场景，旨在检验模型对文化隐含违规的认知水平。数据集以结构化CSV格式存储，列字段包含中英文查询、攻击提示及隐藏违规描述，确保研究可复现性。

特点

该数据集的核心特色在于其国家情境化的跨文化安全评估框架，首次将地域文化敏感性嵌入大语言模型的安全性测评中。越狱基准通过二元评判标准（有害性、非遵从性、具体性、相关性）定义五级安全标签（从严重不安全到理想安全），并引入攻击成功率（ASR）与中性安全率（NSR）作为量化指标，精细化刻画模型的安全边界。文化基准则独创文化敏感性率（CSR），衡量模型识别并尊重文化禁忌的能力。此外，数据集提供英语与本地语言双语查询，覆盖10个语言对，兼顾文化多样性与语言学严谨性，具备广泛的可扩展性与实证价值。

使用方法

XL-SafetyBench支持文本分类与文本生成两类任务，可通过HuggingFace的`load_dataset`函数便捷加载，默认配置为`jailbreak`，亦可指定`cultural`配置以获取文化场景数据。使用时需注意数据文件路径：`jailbreak/`文件夹下的`attack_prompts.csv`包含越狱提示，`cultural/`文件夹下的`scenario_prompts.csv`包含文化场景提示。研究人员应结合配套评估代码（GitHub仓库）运行模型推理，依据五级安全标签对越狱响应进行归类，计算ASR与NSR指标；对于文化部分，则需解析模型输出是否显式识别文化违规，计算CSR得分。此数据集专为学术研究设计，严禁恶意应用。

背景与挑战

背景概述

XL-SafetyBench诞生于2026年，由AIM Intelligence主导，联合Microsoft、韩国AI安全研究院（Korea AISI）及KT Corporation等顶尖机构共同研发。该数据集的核心研究问题聚焦于大型语言模型在多语言与跨文化语境下的安全性与文化敏感性评估。随着LLM在全球范围内的广泛应用，现有安全基准多基于英语和西方文化背景，难以覆盖非英语国家及地区特有的社会规范、法律禁忌与文化敏感议题。XL-SafetyBench通过覆盖法国、德国、印度、日本、韩国等10个国家-语言对，系统性构建了包含越狱攻击与文化敏感性测试两大维度的评估框架，填补了多语言跨文化LLM安全评测领域的关键空白，对推动全球化AI安全治理与负责任的大模型部署具有里程碑式的影响力。

当前挑战

该数据集所解决的领域问题突出表现为：当前LLM安全评测高度同质化，缺乏对非英语国家文化特异性风险的考量，例如印度尼西亚的饮食禁忌、阿联酋的宗教法律冲突等地域性敏感议题常被忽视；同时，现有基准难以有效评估模型在应对越狱攻击时是否真正理解并拒绝对本地文化具有破坏性的有害指令。在构建过程中，团队面临两大挑战：一是需在4500个越狱攻击提示与1000个文化敏感场景中精确映射各国独特的法律红线、宗教仪轨与社会禁忌，确保提示在跨文化语境下不产生歧义；二是通过双语（英语与本地语言）标注及隐蔽违规场景设计，平衡提示的对抗强度与生态效度，避免因翻译偏差或过度简化导致评测失真。

常用场景

经典使用场景

在跨语言大模型安全评估领域，XL-SafetyBench作为一项扎根于国家文化的多语言基准测试集，广泛用于衡量大型语言模型在面对恶意攻击提示时的抵御能力及其文化敏感性。该数据集覆盖法国、德国、印度等十个国家-语言对，分别通过越狱基准测试与文化基准测试两大模块，评估模型在犯罪活动、自残与危险建议、仇恨与歧视等安全隐患场景下的反应，以及在符号禁忌、饮食礼仪、殡葬习俗等文化敏感情境中的表现。研究者可借此系统评价模型在不同国家文化背景下的安全对齐程度与文化适应性。

实际应用

在实际部署场景中，XL-SafetyBench为跨国企业及多语言平台提供了可靠的大模型安全审计框架。例如，在面向印度、印度尼西亚或土耳其等国的客服机器人或内容生成系统中，开发者可以利用该数据集的越狱提示测试模型是否会在特定文化背景下泄露危险信息或违反当地法律。文化基准部分则帮助检查模型在涉及宗教符号、赠礼禁忌或公共行为准则的对话中是否表现出恰当的文化敬畏。这些测试不仅降低了模型在真实环境中产生冒犯或违法输出的风险，也为持续迭代多语言安全策略提供了数据支撑。

衍生相关工作

XL-SafetyBench的发布催生了一系列围绕跨文化模型安全的衍生研究。基于其越狱基准测试的多语言攻击提示，研究人员相继设计了针对不同语言族群的对抗训练方法，例如在阿拉伯语和韩语场景中增强模型对宗教与国家敏感信息的拒绝能力。文化基准部分的数据也启发了若干探讨模型文化意识的理论工作，包括如何通过提示工程或微调策略提升模型在葬礼礼仪、社会等级称呼等情境中的回应恰当性。此外，该数据集还被用作多语言安全红队评估的标准测试集，推动了跨语言安全对齐与人类价值观适配研究的深入发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集