RABAKBENCH 2
收藏arXiv2025-07-08 更新2025-07-10 收录
下载链接:
https://huggingface.co/datasets/govtech/RabakBench
下载链接
链接失效反馈官方服务:
资源简介:
RABAKBENCH 2是一个多语言安全基准数据集,专为新加坡独特的语言环境定制,涵盖Singlish、中文、马来语和泰米尔语。数据集通过三个阶段的可扩展管道构建:生成对抗性示例、半自动多标签安全标注和跨语言的高保真翻译。最终数据集包含超过5,000个安全标注示例,涵盖四种语言和六个细粒度安全类别。该数据集旨在解决低资源语言中大型语言模型及其安全分类器性能不佳的问题,并为构建本地化安全数据集提供一个可复制的框架。
RABAKBENCH 2 is a multilingual safety benchmark dataset customized for Singapore's unique linguistic landscape, covering Singlish, Mandarin, Malay, and Tamil. The dataset is constructed via a three-stage scalable pipeline: generating adversarial examples, semi-automatic multi-label safety annotation, and high-fidelity cross-language translation. The final dataset contains over 5,000 safety-annotated examples spanning four languages and six fine-grained safety categories. This dataset aims to address the poor performance of large language models (LLMs) and their safety classifiers in low-resource languages, and provides a reproducible framework for building localized safety datasets.
提供机构:
新加坡科技设计大学
创建时间:
2025-07-08
原始信息汇总
RabakBench 数据集概述
基本信息
- 许可证: govtech-singapore
- 语言: 英语(Singlish)、中文(简体)、马来语、泰米尔语
- 标签: 分类器、安全、审核、多语言
- 数据量: 5,364 条短文本(每种语言 1,341 条),公共集包含每种语言 132 条样本
语言详情
| 标签 | 描述 |
|---|---|
EN |
Singlish(英语克里奥尔语,含马来语、闽南语、泰米尔语借用词) |
ZH |
简体中文 |
MS |
马来语 |
TA |
泰米尔语 |
标签架构
类别与严重等级
| 序号 | 类别 | 等级 1 | 等级 2 |
|---|---|---|---|
| 1 | 仇恨 | 歧视性内容 | 仇恨言论 |
| 2 | 性相关 | 不适合未成年人 | 不适合所有年龄段 |
| 3 | 自残 | 意念 | 行动/自杀 |
| 4 | 侮辱 | 无细分等级 | 无细分等级 |
| 5 | 身体暴力 | 无细分等级 | 无细分等级 |
| 6 | 其他不当行为 | 社会不可接受 | 非法活动 |
- 每个样本可能触发多个类别,记录每个类别的最高严重等级。
数据集结构
| 字段 | 类型 | 定义/注释 |
|---|---|---|
prompt_id |
string |
记录的唯一标识符 |
text |
string |
原始用户风格的句子或段落(UTF-8 编码) |
binary |
int |
安全标志:1 表示触发任何不安全类别或等级;0 表示完全安全 |
hateful |
int |
0 = 无仇恨内容;1 = 歧视性(等级 1);2 = 仇恨言论(等级 2) |
insults |
int |
0 = 无侮辱内容;1 = 包含侮辱(单级类别) |
sexual |
int |
0 = 无性相关内容;1 = 不适合未成年人(等级 1);2 = 不适合所有年龄段(等级 2) |
physical_violence |
int |
0 = 无暴力内容;1 = 包含暴力(单级类别) |
self_harm |
int |
0 = 无自残内容;1 = 意念(等级 1);2 = 自残行动/自杀(等级 2) |
all_other_misconduct |
int |
0 = 无不当行为;1 = 社会不可接受(等级 1);2 = 非法活动(等级 2) |
预期用途
- 基准测试审核 API / 防护栏。
- 研究代码混合毒性检测。
非预期用途
- 微调模型以生成不安全内容。
搜集汇总
数据集介绍

构建方式
RABAKBENCH 2的构建采用了创新的三阶段流程,旨在高效生成多语言安全评估基准。首先,通过对抗性示例生成技术,结合真实新加坡英语(Singlish)网络内容与大型语言模型(LLM)驱动的红队测试,构建多样化的测试案例。其次,采用半自动化多标签安全标注方法,利用与人类判断高度一致的LLM标注器进行多数投票标注,确保标签的准确性和一致性。最后,通过高保真翻译技术,将数据集扩展至中文、马来语和泰米尔语,同时保留原始语言的语言细微差别和毒性特征。
特点
RABAKBENCH 2数据集涵盖了新加坡独特的语言环境,包括Singlish、中文、马来语和泰米尔语,共计超过5,000个安全标注示例,涵盖六个细粒度安全类别及其严重程度等级。该数据集特别关注低资源语言的安全评估,通过本地化的对抗性示例和多语言扩展,为研究者和开发者提供了丰富的测试场景。此外,数据集还包含了文化特定的语言现象,如代码混合、委婉俚语和本地化引用,进一步增强了其在实际应用中的价值。
使用方法
RABAKBENCH 2数据集适用于评估和提升大型语言模型在多语言环境下的安全性能。研究者可以利用该数据集测试模型在不同语言和文化背景下的安全分类表现,识别模型在低资源语言中的潜在弱点。数据集的使用方法包括加载预标注的多语言示例,应用自定义的安全分类器进行评估,并通过对比分析模型在不同语言和类别上的表现,优化模型的安全性能。此外,数据集还提供了详细的标注指南和翻译验证流程,确保评估的准确性和可重复性。
背景与挑战
背景概述
RABAKBENCH 2是由新加坡GovTech和新加坡科技设计大学的研究团队于2025年推出的多语言安全基准数据集。该数据集针对新加坡独特的语言环境,涵盖了新加坡英语(Singlish)、中文、马来语和泰米尔语四种语言,旨在解决低资源语言环境下大型语言模型(LLMs)安全评估的不足。通过三阶段流水线(生成、标注和翻译),RABAKBENCH 2构建了超过5,000个安全标注的示例,覆盖六种细粒度安全类别及其严重性等级。该数据集不仅填补了东南亚多语言安全评估的空白,还为低资源环境下构建本地化安全数据集提供了可复现的框架。
当前挑战
RABAKBENCH 2面临的挑战主要包括两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,现有安全分类器在低资源语言(如Singlish)中表现不佳,难以识别文化特定的危害或误判良性短语;多语言环境下的代码混合、委婉俚语和文化引用等语言复杂性进一步增加了分类难度。在构建过程中,数据生成需平衡对抗性示例的真实性与多样性,标注需克服低资源语言专家标注成本高的问题,而翻译则需在跨语言中准确保留语义和毒性。此外,数据集的本地化特性可能限制其泛化能力,且依赖LLM可能引入模型特定偏差。
常用场景
经典使用场景
RABAKBENCH 2作为多语言安全基准测试数据集,其最经典的使用场景在于评估大型语言模型(LLMs)在低资源语言环境下的安全分类性能。该数据集覆盖新加坡特有的语言环境,包括Singlish、中文、马来语和泰米尔语,通过对抗性示例生成和半自动化标注流程,为研究者提供了丰富的测试案例。这些案例不仅包含常见的网络有害内容,还涉及文化特定的表达和隐晦的暴力语言,能够全面检验模型在复杂语言环境中的鲁棒性。
衍生相关工作
该数据集衍生出多个重要研究方向:基于其对抗生成方法,Ng等人开发了针对Singlish仇恨言论的SGHateCheck工具包;PolyGuard团队借鉴其多语言扩展框架,构建了支持17种语言的安全过滤器;WildGuard 7B通过在该数据集上的微调,将多语言安全分类F1值提升至78.89%。此外,其LLM-as-annotator范式被Calderon等学者发展为通用的Alt-Test评估方法论。
数据集最近研究
最新研究方向
随着多语言大语言模型(LLMs)的广泛应用,确保其在低资源语言环境中的安全性成为研究热点。RABAKBENCH 2作为首个针对新加坡多语言环境(涵盖新加坡式英语、中文、马来语和泰米尔语)的安全基准数据集,通过三阶段流水线(生成-标注-翻译)构建了5000余条细粒度安全标注样本。该数据集不仅揭示了主流开源和闭源安全分类器在低资源语言中的性能退化现象(如AWS Bedrock Guardrail在泰米尔语中F1分数降至0.06%),更创新性地提出基于LLM多数投票的弱监督标注框架和毒性保持翻译方法。其前沿价值体现在:1)为东南亚多语言场景提供首个本土化安全评估工具;2)建立了可复用的低资源语言安全数据集构建范式;3)通过对抗样本生成技术暴露了现有安全防护在文化特定表达(如语码混合、委婉俚语)上的脆弱性。相关成果已被应用于改进LlamaGuard等模型的跨语言安全能力,并为联合国教科文组织《全球AI伦理框架》中的多语言安全条款提供了实证支持。
相关研究论文
- 1RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages新加坡科技设计大学 · 2025年
以上内容由遇见数据集搜集并总结生成



