govtech/RabakBench

Name: govtech/RabakBench
Creator: govtech
Published: 2025-11-11 05:07:43
License: 暂无描述

Hugging Face2025-11-11 更新2025-08-09 收录

下载链接：

https://hf-mirror.com/datasets/govtech/RabakBench

下载链接

链接失效反馈

官方服务：

资源简介：

RabakBench数据集包含5364条短文本，涵盖Singlish、中文、马来语和泰米尔语四种语言。每个样本针对六个危害类别进行了多标签标注，包括歧视性、仇恨言论、不适当内容、侮辱、身体暴力和其他不当行为，并区分了不同的严重程度级别。数据集适用于基准测试审查API/围栏和研究代码混合毒性检测。

The RabakBench dataset contains 5,364 short texts in Singlish, Chinese, Malay, and Tamil. Each sample is multi-labelled across six harm categories, including discriminatory, hate speech, inappropriate content, insults, physical violence, and other misconduct, with different severity levels distinguished. The dataset is intended for benchmarking moderation APIs/guardrails and research on code-mixing toxicity detection.

提供机构：

govtech

5,000+

优质数据集

54 个

任务类型

进入经典数据集