five

mangalathkedar/multilingual-indic-profane

收藏
Hugging Face2025-11-07 更新2025-11-15 收录
下载链接:
https://hf-mirror.com/datasets/mangalathkedar/multilingual-indic-profane
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含6081条文本条目,这些文本被标记为安全分类(“安全”或“不安全”)。文本为多语言,包括马拉雅拉姆语、印地语、泰米尔语和卡纳达语的本地脚本以及它们的转写(罗马化)版本。内容从中性、日常用语到高度攻击性和下流语言都有。该数据集适合用于训练和评估适用于多种南亚语言的任务模型,如仇恨言论检测、有毒内容过滤和一般文本安全分类。

This dataset contains 6081 text entries labeled for safety classification (`safe` or `not safe`). The text is multilingual, including native scripts for Malayalam, Hindi, Tamil, and Kannada, as well as their transliterated (romanized) versions. The content ranges from neutral, everyday phrases to highly offensive and profane language. It is suitable for training and evaluating models for tasks like hate speech detection, toxic content filtering, and general text safety classification across multiple South Asian languages.
提供机构:
mangalathkedar
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作