mangalathkedar/multilingual-indic-profane

Name: mangalathkedar/multilingual-indic-profane
Creator: mangalathkedar
Published: 2025-11-07 08:42:22
License: 暂无描述

Hugging Face2025-11-07 更新2025-11-15 收录

下载链接：

https://hf-mirror.com/datasets/mangalathkedar/multilingual-indic-profane

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含6081条文本条目，这些文本被标记为安全分类（“安全”或“不安全”）。文本为多语言，包括马拉雅拉姆语、印地语、泰米尔语和卡纳达语的本地脚本以及它们的转写（罗马化）版本。内容从中性、日常用语到高度攻击性和下流语言都有。该数据集适合用于训练和评估适用于多种南亚语言的任务模型，如仇恨言论检测、有毒内容过滤和一般文本安全分类。

This dataset contains 6081 text entries labeled for safety classification (`safe` or `not safe`). The text is multilingual, including native scripts for Malayalam, Hindi, Tamil, and Kannada, as well as their transliterated (romanized) versions. The content ranges from neutral, everyday phrases to highly offensive and profane language. It is suitable for training and evaluating models for tasks like hate speech detection, toxic content filtering, and general text safety classification across multiple South Asian languages.

提供机构：

mangalathkedar

5,000+

优质数据集

54 个

任务类型

进入经典数据集