Multilingual LLM Safety Bench
收藏github2026-05-02 更新2026-05-04 收录
下载链接:
https://github.com/YutoTerashima/multilingual-llm-safety-bench
下载链接
链接失效反馈官方服务:
资源简介:
包含的数据是合成的,故意设计得较为温和。它旨在测试评估管道和分类映射,而不是发布有害内容。
The data included in this dataset is synthetic and intentionally designed to be mild. It is intended to test evaluation pipelines and classification mappings, rather than disseminating harmful content.
创建时间:
2026-05-02
原始信息汇总
Multilingual LLM Safety Bench 数据集详情
数据集概述
Multilingual LLM Safety Bench 是一个面向多语言(英语、日语、中文)的大语言模型安全性评估基准数据集,旨在研究模型在不同语言下的拒绝(Refusal)、过度拒绝(Over-refusal)、不安全遵从(Unsafe Compliance)以及模糊处理(Ambiguous Handling)行为。
数据集规模
- V2 研究版:包含 80,000 条分层抽样样例,来自
lumees/multilingual-safety-classification-dataset数据集,并保留了语言/文字分组元数据。 - 扩展版:包含 36 个测试样例,位于
datasets/full_multilingual_cases.json。
核心内容
数据文件
- 基准分类:
datasets/hazard_taxonomy.json- 危害分类体系 - 完整多语言样例:
datasets/full_multilingual_cases.json- 扩展版测试样例 - 外部真实数据集特征:
datasets/external/multilingual_safety_features.jsonl- 从公开数据集中提取的哈希特征样本
实验结果报告
- V2 主要结果:
reports/results/v2_main_results.csv - V2 消融结果:
reports/results/v2_ablation_results.csv - V2 失败案例:
reports/results/v2_failure_cases.json - 多语言行为结果:
reports/multilingual_behavior_results.csv和reports/multilingual_behavior_results.json - 多语言行为分析:
reports/multilingual_behavior_analysis.md - 完整多语言分析:
reports/full_multilingual_analysis.md - GPU 基准测试报告:
reports/multilingual_safety_gpu_benchmark.md - V2 研究报告:
reports/multilingual_safety_v2_research_report.md
可视化图表
reports/figures/v2_accuracy_by_experiment.png- 按实验的准确率reports/figures/v2_confusion_matrix.png- 混淆矩阵reports/figures/v2_group_unsafe_recall.png- 分组的 unsafe_recall 指标reports/figures/v2_model_macro_f1.png- 各模型的 macro_f1 指标
主要实验结果
| 实验ID | 准确率 | macro_f1 | unsafe_recall | safe_recall | AUROC | 运行时间(秒) |
|---|---|---|---|---|---|---|
| char_ngram_tfidf | 0.7049 | 0.6930 | 0.6695 | 0.7779 | 0.8027 | 14.4710 |
| word_tfidf_lr | 0.7216 | 0.7104 | 0.6817 | 0.8039 | 0.8286 | 3.4470 |
| gpu_char_mlp | 0.6754 | 0.4104 | 0.9992 | 0.0077 | 0.6789 | 4.8220 |
| english_transfer_proxy | 0.7049 | 0.6930 | 0.6695 | 0.7779 | 0.8027 | 14.2900 |
关键发现
- Word TF-IDF 是当前运行中最强的基线模型,macro-F1 约 0.710,AUROC 约 0.829。
- 字符 n-gram 具有竞争力,表明文字层面特征在多语言安全分类中起重要作用。
- GPU MLP 表现为高 unsafe_recall 的工作点,但 safe_recall 几乎崩溃,可作为校准警告而非最终模型。
- 失败分析:假阴性 52 条记录,假阳性 28 条记录。
语言/文字分组示例
| 语言分组 | macro_f1 | 样例数 | unsafe_recall |
|---|---|---|---|
| amh_Ethi | 0.7341 | 892 | 0.7664 |
| ben_Beng | 0.7744 | 1,505 | 0.7855 |
| bos_Latn | 0.7885 | 1,805 | 0.8079 |
| bul_Cyrl | 0.8118 | 1,792 | 0.8369 |
| ceb_Latn | 0.7595 | 1,067 | 0.7510 |
| ces_Latn | 0.7029 | 891 | 0.6766 |
| deu_Latn | 0.7534 | 906 | 0.7585 |
| eng_Latn | 0.7850 | 868 | 0.7986 |
| fra_Latn | 0.6712 | 356 | 0.6936 |
| ind_Latn | 0.7890 | 827 | 0.7982 |
评估指标
基准测试包含 平衡准确率 和 跨语言行为差异 辅助指标,因为原始通过率无法反映某一语言是否比另一语言过度拒绝更多。
辅助工具
- 分层校验:
examples/check_stratification.py- 验证语言和标签分布在模型比较前的均衡性 - 行为分布分析:
examples/run_analysis.py- 计算各语言行为分布、混淆对及审核率
搜集汇总
数据集介绍

构建方式
Multilingual LLM Safety Bench的构建基于一个经过精心设计的合成数据集,旨在以温和且可控的方式评估多语言大语言模型的安全行为。数据集从公开的多元语言安全分类数据集中提取了80,000个分层样本,保留了语言与文字体系的元数据,覆盖英语、日语和中文三种语言。构建过程中引入了风险分类体系与跨语言行为差距校准指标,确保评测框架能够揭示不同语言下模型在拒绝、过度拒绝、不安全合规及模糊处理等方面的表现差异。
特点
该基准测试的核心特点在于其紧凑而精细的多语言安全评测能力。数据集涵盖了从高资源语言到低资源语系的广泛语言群体,提供了字符层级与词层级的多种评估基准。通过平衡准确率与跨语言行为差距分析,它能够揭露单一语言通过率所隐藏的过度拒绝或不安全合规问题。此外,数据集还包含了分层验证、失败案例分析与混淆矩阵等丰富的人工制品,支持对模型安全性进行深入且可重复的评估。
使用方法
使用者可以通过简单的pip安装命令快速部署该基准测试,并运行预设的评测脚本以获得多语言行为报告。数据集提供了多种实验配置,包括基于CPU的快速验证路径与基于GPU的完整研究套件。用户能够执行分层抽样检查、校准指标计算以及跨语言行为分布分析,并通过生成的CSV、JSON与Markdown格式报告深入探究模型的安全表现。完整的复制流程包括数据下载、预处理、模型实验及报告生成,确保评测过程的可重复性与透明度。
背景与挑战
背景概述
Multilingual LLM Safety Bench 是一个聚焦于多语言环境下大语言模型安全行为评估的精简基准数据集,涵盖英语、日语和中文三种语言。该数据集由研究团队于近年创建,核心研究问题在于系统性地评估模型在面对多语言输入时的拒绝、过度拒绝、不安全遵从以及模棱两可处理等行为表现。通过构建包含精心设计的合成样本和真实多语言安全分类数据的评测框架,该基准旨在揭示不同语言背景下模型安全机制的一致性与差异性,为构建真正稳健的多语言 AI 安全评估体系提供了关键工具,在推动跨语言对齐研究与安全部署方面具有重要影响力。
当前挑战
该数据集所解决的领域挑战在于,当前大语言模型的安全评估多集中于英语环境,缺乏对多语言场景下安全行为一致性的系统性检验,而不同语言的文化语境与表达方式可能导致模型面临迥异的安全风险。构建过程中面临的挑战包括:如何在降低样本危害程度的同时保持评估的真实有效性,如何平衡各语言间的样本分布以避免评测偏差,以及如何设计能够准确区分拒绝、过度拒绝与不安全遵从等细微行为差异的分类体系。此外,处理低资源语种的安全特征标注、消除跨语言行为差异中的混淆因素,也是数据集构建中的核心难点。
常用场景
经典使用场景
在跨语言大模型安全对齐研究中,Multilingual LLM Safety Bench作为一种紧凑型多语言安全评估基准,被广泛用于评测模型在英语、日语和中文三种语言上对不安全内容的拒绝、过度拒绝、危险顺从以及模糊边界处理等行为表现。研究者通过加载该基准中的合成提示,借助其内置的分类体系和风险场景覆盖,系统性地比较同一模型在不同语言下的安全行为差异。该基准特别适用于分析模型在跨语言环境下拒绝一致性的变化,为多语言安全审计提供了可复现的评估框架。
解决学术问题
该数据集有效解决了多语言模型安全评估中缺乏标准化、跨语言对齐的评测体系这一关键学术难题。长期以来,大模型安全研究多集中于英语,忽视了模型在非英语语境下安全表现可能显著退化的问题。Multilingual LLM Safety Bench通过统一的风险分类体系和跨语言行为差距度量,使研究者能够量化不同语言间的过度拒绝与危险顺从差异,揭示了语言分布不平衡所引发的安全覆盖漏洞。其提出平衡准确率等校准指标,修正了单纯依赖通过率评估的偏差,显著推动了多语言鲁棒安全研究的理论进展。
衍生相关工作
该数据集衍生了多项具有影响力的后续工作,包括基于Word TF-IDF和字符n-gram的多语言安全分类基线对比研究、GPU加速的多层感知机安全预测模型以及语言族群粒度的跨语言安全行为差异分析。研究者利用该数据集构建了包含80,000条分层样本的V2研究套件,系统性地探索了英语迁移代理模型在非英语语言上的性能折损。这些衍生工作进一步验证了脚本级特征在低资源语言安全分类中的关键作用,并催生了多项关于跨语言安全校准、混淆分析以及失败案例归因的开源工具与评估报告。
以上内容由遇见数据集搜集并总结生成



