five

Bengali_Hate

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Bengali_Hate
下载链接
链接失效反馈
官方服务:
资源简介:
社交媒体通常是各种仇恨和令人反感的内容的温床。由于社交媒体对种族,性别或宗教的影响,因此在社交媒体上识别此类内容至关重要。但是,尽管在英语中的仇恨语音检测方面进行了广泛的研究,但在孟加拉语等低资源语言中的仇恨内容检测方面却存在差距。此外,社交媒体上当前的趋势是使用罗马化的孟加拉语进行定期互动。为了克服现有研究的局限性,在本研究中,我们开发了一个带有注释的10k孟加拉语帖子数据集,其中包括5k实际和5k罗马化的孟加拉语推文。我们为这类可恶职位的分类实施了几个基线模型。我们进一步探索语际转移机制来提高分类性能。最后,我们通过调查模型分类错误的帖子来进行深入的误差分析。在分别训练实际数据集和罗马化数据集的同时,我们观察到XLM-Roberta表现最好。此外,我们目睹了在联合训练和少镜头训练中,MuRIL通过更好地解释语义表达而优于其他模型。
提供机构:
OpenDataLab
创建时间:
2022-11-24
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集旨在填补孟加拉语仇恨内容检测的空白,包含1万条标注的实际和罗马化孟加拉语推文,用于支持分类模型研究。它由印度理工学院卡拉格普尔分校于2022年发布,以促进低资源语言中的仇恨言论识别。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作