Bengali_Hate
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/Bengali_Hate
下载链接
链接失效反馈官方服务:
资源简介:
社交媒体通常是各种仇恨和令人反感的内容的温床。由于社交媒体对种族,性别或宗教的影响,因此在社交媒体上识别此类内容至关重要。但是,尽管在英语中的仇恨语音检测方面进行了广泛的研究,但在孟加拉语等低资源语言中的仇恨内容检测方面却存在差距。此外,社交媒体上当前的趋势是使用罗马化的孟加拉语进行定期互动。为了克服现有研究的局限性,在本研究中,我们开发了一个带有注释的10k孟加拉语帖子数据集,其中包括5k实际和5k罗马化的孟加拉语推文。我们为这类可恶职位的分类实施了几个基线模型。我们进一步探索语际转移机制来提高分类性能。最后,我们通过调查模型分类错误的帖子来进行深入的误差分析。在分别训练实际数据集和罗马化数据集的同时,我们观察到XLM-Roberta表现最好。此外,我们目睹了在联合训练和少镜头训练中,MuRIL通过更好地解释语义表达而优于其他模型。
提供机构:
OpenDataLab
创建时间:
2022-11-24



