Bengali_Hate

Name: Bengali_Hate
Creator: OpenDataLab
License: 暂无描述

OpenXLab2026-04-18 收录

下载链接：

https://openxlab.org.cn/datasets/OpenDataLab/Bengali_Hate

下载链接

链接失效反馈

官方服务：

资源简介：

社交媒体通常是各种仇恨和令人反感的内容的温床。由于社交媒体对种族，性别或宗教的影响，因此在社交媒体上识别此类内容至关重要。但是，尽管在英语中的仇恨语音检测方面进行了广泛的研究，但在孟加拉语等低资源语言中的仇恨内容检测方面却存在差距。此外，社交媒体上当前的趋势是使用罗马化的孟加拉语进行定期互动。为了克服现有研究的局限性，在本研究中，我们开发了一个带有注释的10k孟加拉语帖子数据集，其中包括5k实际和5k罗马化的孟加拉语推文。我们为这类可恶职位的分类实施了几个基线模型。我们进一步探索语际转移机制来提高分类性能。最后，我们通过调查模型分类错误的帖子来进行深入的误差分析。在分别训练实际数据集和罗马化数据集的同时，我们观察到XLM-Roberta表现最好。此外，我们目睹了在联合训练和少镜头训练中，MuRIL通过更好地解释语义表达而优于其他模型。

提供机构：

OpenDataLab

创建时间：

2022-11-24

5,000+

优质数据集

54 个

任务类型

进入经典数据集